﻿ Contribuţii la compresia, în domeniul transformatelor wavelet, a semnalelor audio ii Notaţii, prescurtări şi convenţii folosite Lista de simboluri utilizate ⋅⋅, : produs scalar : norma unui vector ⋅ ⊕ : suma directă ⊗ : produsul direct : simbolul lui Kronecker jδ () tϕ : funcţia de scalare () tψ : funcţia Wavelet ~ () tϕ : funcţia de scalare duală ~ () tψ : funcţia Wavelet duală C : spaţiul vectorial al numerelor complexe α () : spaţiul semnalelor cu regularitate Holder egală cu α ℜC jd : secvenţa coeficienţilor descompunerii Wavelet (detaliile) h : răspunsul la impuls al filtrului trece-jos H(z) : transformata Z al secvenţei h g : răspunsul la impuls al filtrului trece-sus G(z) : transformata Z al secvenţei g ~ h : răspunsul la impuls al filtrului trece-jos dual g~ : răspunsul la impuls al filtrului trece-jos dual () ℜH: spaţiul Sobolev omogen p,k () ℜL : spaţiul Lebesque al funcţiilor p-integrabile p () : spaţiul vectorial al funcţiilor continue pătrat integrabile (de energie finită) ℜL 2 () : spaţiul vectorial al secvenţelor numerice pătrat sumabile Zl 2 N : spaţiul vectorial al numerelor naturale O : simbolul “O” mare cu semnificaţia “ordinul lui …” () ⋅P : operator de proiecţie () ⋅Q : operator de cuatizare ℜ : spaţiul vectorial al numerelor reale S : clasa lui Schwartz js : secvenţa coeficienţilor de proiecţie Wavelet * U,U : operatorul “de pliere” direct şi andjunctul său Vj : subspaţiul vectorial închis generat de funcţia de scalare la nivelul de rezoluţie j Wj : subspaţiul vectorial închis generat de funcţia “wavelet” la nivelul de rezoluţie j Z : spaţiul vectorial al numerelor întregi Prescurtări utilizate 1D : unidimensional 2D : bidimensional AAC : Advanced Audio Coder ADPCM : Adaptive Differential Pulse Code Modulation Bps : bit / secundă CPT : transformarea în pachete de funcţii trigonometrice locale (pachete de funcţii cosinusoidale) CWT : transformarea Wavelet continuă DCT : transformarea Cosinus discretă (Discrete Cosine Transform) DST : transformarea Sinus discretă (Discrete Sine Transform) DLCT : transformarea Cosinus Locală Discretă (Discrete Local Cosine Transform) iiiDLCPT : transformarea în Pachete de funcţii Cosinusoidale Locale Discretă (Discrete Local Cosine Packet Transform) DWT : transformarea Wavelet discretă (Discrete Wavelet Transform) FFT : transformarea Fourier rapidă (Fast Fourier Transform) FIR : filtru cu răspuns finit la impuls (Finite Impulse Response) FWT : transformarea Wavelet rapidă (Fast Wavelet Transform) HP : tip trece sus (High Pass) IIR : filtru cu răspuns infinit la impuls (Infinite Impulse Response) JND : distorsiune de abia sesizabilă (Just Noticeable Distortion) JPEG : Joint Photographic Experts Group LPC : codare predictivă liniară (Linear Predictive Coding) KLT : transformarea Karhunen-Löeve MB : Mega Byte MPEG : Moving Pictures Experts Group MP3 : MPEG audio layer 3 MSE : eroarea medie pătratică (Mean Square Error) PR : cu reconstrucţie perfectă (Perfect Reconstruction) QMF : filtre oglindite în cuadratură (Quadrature Mirror Filter) SNR : raport semnal pe zgomot (Signal to Noise Ratio) SMR : raport semnal pe nivel de mascare (Signal to Mask Ratio) WPT : transformarea în pachete de funcţii Wavelet (Wavelet Packet Transform) Alte notaţii, convenţii şi definiţii În această lucrare în mod obişnuit se vor utiliza simbolurile j,k,l,m şi n pentru numerele întregi În general un simbol k kZ În mod similar, simbolurile t,u,v desemnează variabile continue sub semnul de însumare este echivalent cu ∈ Astfel x(t) este un semnal continuu, în timp ce x[n]- este o secvenţă de numere (un semnal în timp discret) Prin definiţie un spaţiu Banach este un spaţiu vectorial complet şi normat iar spaţiul Hilbert este un spaţiu Banach a cărei normă este indusă de un produs scalar Două subspaţii A şi B ale unui spaţiu S formează o descompunere directă a spaţiului S dacă orice element al lui S poate fi scris în mod unic ca o sumă dintre un element al lui A şi un = element al lui B Se scrie atunci BAS⊕ 1 Funcţii şi spaţii de funcţii , şi cu valori din mulţimea numerelor Vom lucra, în mod curent cu funcţii definite pe mulţimea numerelor reale, ℜ complexe, C Pe axa reală folosim numai măsura Lebesque O funcţie cu valori reale f(t) este măsurabilă dacă domeniul său de definiţie este măsurabilă şi dacă elementele mulţimii () {}Atft ε∀+≤= () ()0,t1CtffD 0 , este definită prin: Versiunea T-periodică a unei funcţii Df ∈ ⋅+kTtf () k 0 } Suportul unei funcţii are definiţia: supp f = clos {t | f(t)≠ v CUPRINS Capitolul I Introducere 1 1 1 Componentele sistemelor de compresie 1 1 2 Compresie fără pierdere 2 1 3 Compresie cu pierdere 5 1 4 Descompunerea semnalului prin transformări ale spaţiului de reprezentare 7 1 5 Compresie adaptivă şi compresie universală 9 1 6 Reprezentarea optimă a semnalului 9 1 7 Conţinutul lucrării 10 1 8 Funcţia rată-distorsiune b(D) şi funcţia distorsiune-rată D(b) 12 Capitolul II Cuantizarea 16 2 1 Cuantizarea scalară 17 2 1 1 Modelarea statistică a intrării şi a zgomotului de cuantizare 19 2 1 2 Cuantizarea scalară uniformă 22 2 1 3 Cuantizarea scalară neuniformă 23 2 1 4 Cuantizare scalară optimală 25 2 1 5 Cuantizare scalară robustă 28 2 2 Cuantizarea vectorială 29 2 2 1 Cuantizarea vectorială optimală 30 Capitolul III Descompunerea eficientă în serii de funcţii a semnalelor în timp continuu 32 3 1 Descompunerea semnalelor în baze de funcţii Wavelet 36 3 1 1 Descompuneri Wavelet ortogonale 39 3 1 1 1 Construcţia funcţiei de scară ϕ(t) 44 3 1 1 2 Construcţia funcţiei Wavelet ψ(t) 46 3 1 1 3 Calculul coeficienţilor de proiecţie ai unui semnal pe subspaţiile Vj 47 3 1 1 4 Calculul coeficienţilor de proiecţie ai unui semnal pe subspaţiile Wj 48 3 1 1 5 Transformarea Wavelet Rapidă 50 3 1 1 6 Analogia algoritmului FWT cu filtrarea în subbenzi 52 3 1 1 7 Proprietăţile de regularitate şi de moment ale funcţiilor de scară şi funcţiilor Wavelet 54 3 1 1 8 Funcţii Wavelet cu suport compact 58 3 1 1 9 Localizarea timp-frecvenţă a descompunerilor în baze de funcţii Wavelet 68 3 1 2 Descompuneri Wavelet biortogonale 78 3 2 Descompunerea semnalelor în pachete de funcţii Wavelet 82 3 2 1 Descompuneri în pachete de funcţii Wavelet ortogonale 83 3 2 2 Algoritmul transformării rapide în pachete de funcţii Wavelet 84 3 2 3 Obţinerea pachetelor de funcţii Wavelet 86 3 2 4 Analogia algoritmului FWPT cu filtrarea în subbenzi 89 3 2 5 Localizarea timp-frecvenţă a descompunerilor în baze de pachete de funcţii Wavelet 91 3 3 Transformări trigonometrice locale 96 3 3 1 Descompunerea semnalului în baze de atomi timp-frecvenţă 97 3 3 2 Structuri oblice (frames) 99 3 3 3 Proprietăţi ale atomilor timp-frecvenţă 100 3 3 4 Aspecte ale discretizării reprezentărilor STFT şi CWT 101 3 3 5 Construcţia bazelor trigonometrice locale ortogonale 103 iCapitolul IV Compresie de semnal prin transformări ortogonale 109 4 1 Transformarea Karhunen-Löeve 112 4 2 Transformarea FFT 113 4 3 Transformările DCT şi DST 113 4 4 Transformarea Cosinus Discretă Locală, DLCT (Discrete Local Cosine Transform) 115 4 5 Procedură de alocare de bit optimală 117 Capitolul V Compresie de semnal prin codare în subbenzi 121 5 1 Caracterizarea băncilor de filtre de tip PR 124 5 1 1 Subeşantionarea 124 5 1 2 Interpolarea 125 5 1 3 Reprezentarea polifază a secvenţelor numerice 125 5 1 4 Echivalenţe remarcabile de sisteme 126 5 1 4 1 Filtrare-subeşantionare 126 5 1 4 2 Subeşantionare-filtrare 127 5 1 4 3 Filtrare-interpolare 127 5 1 4 4 Interpolare-filtrare 128 5 1 5 Bănci de filtre de tip PR unitare 128 5 1 6 Bănci de filtre pe M căi neuniforme 135 5 2 Construcţia băncilor de filtre cu reconstrucţie perfectă pe două căi 136 5 3 Sisteme de codare în subbenzi (SBC) optimale 141 5 3 1 Analogia SBC pe M căi uniforme cu sistemele de codare prin transformări ortogonale 141 5 3 2 Procedură de alocare de bit optimală 143 5 3 3 SBC uniforme optimale Filtre de compactare optimale 145 5 3 4 SBC neuniforme optimale 146 Capitolul VI Compresie adaptivă de semnal 149 6 1 Sisteme optimale de compresie cu pierdere 149 6 2 Sisteme adaptive de compresie prin descompunere în baze de funcţii Wavelet 153 6 2 1 Sistem eficient de compresie Wavelet adaptivă 153 6 2 2 Compresia Wavelet adaptivă a unor semnale regulate 157 Capitolul VII Compresie transparentă de semnal audio 163 7 1 Metode standardizate de codare a semnalului audio 163 7 2 Codare transparentă de semnal audio 165 7 2 1 Modelarea proprietăţilor psiho-acustice ale sistemului auditoriu uman 165 7 2 2 Codare perceptivă de semnal audio 166 7 3 Sistemul de codare MPEG-Audio 170 7 3 1 Nivelele 1,2 şi 3 ale codării MPEG-1 Audio 170 7 3 2 Modelul psiho-acustic utilizat în codările MPEG 172 7 4 Compresie de semnal audio prin descompuneri în baze de funcţii Wavelet 174 7 4 1 Compresie de semnal audio prin transformări Wavelet 176 7 4 2 Compresie de semnal audio prin dezvoltare în pachete de funcţii Wavelet 181 7 5 Compresie de semnal audio prin descompuneri în baze de funcţii trigonometrice locale 192 Concluzii 196 Bibliografie 202 ii iii 1 Capitolul I Introducere Creşterea exponenţială a producţiei de “informaţie” ce caracterizează cei ultimii 20-30 de ani a impus necesitatea căutării unor noi metode de reprezentare a ei, care să fie cât mai compacte şi să reprezinte cât mai fidel informaţia sursă Această cerinţă pentru tehnici de compresie a fost impusă atât din dorinţa transmiterii (comunicării) cât mai rapide a informaţiei cât şi din dorinţa de a “ocupa” un spaţiu cât mai redus pentru depozitarea sa Ca şi informaţie sursă poate fi privit orice produs al unui echipament sau proces, ce oferă ca rezultat un semnal analogic, sau în timp discret, ce prezintă, dintr-un anumit punct de vedere, o oarecare importanţă, altfel spus poartă în el o anumită cantitate de informaţie utilă Astfel, de exemplu, constituie sursă de informaţie datele ştiinţifice oferite de un senzor sau un traductor, semnalul vocal sau cel audio, imaginile analogice sau numerice furnizate de o cameră de luat vederi sau de un tomograf medical, şirul de date transmis de un aparat fax sau un modem etc În toate aceste cazuri tehnicile de compresie sunt cerute în vederea utilizării cât mai eficiente a resurselor de înmagazinare sau de comunicare simplificând totodată, în anumite cazuri, anumite operaţii de post-procesare ale acestor date Metodele de compresie pot fi grupate în două mari clase: - compresie fără pierdere: oferă o reprezentare exactă dar mai compactă a informaţiei sursă Este o operaţie perfect reversibilă De exemplu, compresia unui fişier ce conţine un text obişnuit bazată pe avantajul oferit de diferitele frecvenţe de apariţie ale unor simboluri diferite - compresie cu pierdere: permite neglijarea unei anumite părţi din informaţia sursă în vederea obţinerii unei reprezentări mai compacte însă permite doar o reconstrucţie aproximativă Există o serie de aplicaţii în care această aproximare poate fi tolerată (fiind uneori chiar imperceptibilă), ca de exemplu, compresia semnalului vocal în sistemele de telefonie celulară 1 1 Componentele sistemelor de compresie Un sistem tipic de compresie include unul sau mai multe dintre următoarele operaţii: - eşantionare: operaţie ce realizează conversia unui semnal în timp continuu într-unul în timp discret prin reţinerea valorilor semnalului continuu doar la anumite momente de timp Prin aceasta se realizează, de fapt, o corespondenţă dintre un spaţiu al semnalelor în timp continuu şi un spaţiu de semnale în timp discret Este de dorit ca această operaţie să fie una reversibilă, adică să permită reconstrucţia exactă a unui semnal continuu (analogic) din eşantioanele sale Teorema WKS afirmă că există semnale (de bandă limitată) care eşantionate în mod corespunzător (frecvenţa de eşantionare egală cu cel puţin dublul frecvenţei maxime din spectrul semnalului de eşantionat) pot fi reconstruite perfect din eşantioanele lor Această operaţie nu se mai cere dacă semnalul de intrare considerat este unul achiziţionat printr-o procedură de sondare la anumite momente de timp De exemplu: senzor cu eşantionare, senzor CCD, aparat tomograf etc; - cuantizare: operaţie ce realizează o corespondenţă între un spaţiu de valori continue (valorile eşantioanelor semnalului) sau un spaţiu de valori discrete dar de o dimensiune semnificativă, sau chiar infinită (un spaţiu discret), şi un spaţiu de valori discrete cu o dimensiune mult mai redusă (evident, finită) Prin ea se realizează implicit o compresie cu pierdere a semnalului deoarece implică reducerea cantităţii de informaţie purtată în semnal Deoarece mulţimea valorilor de la ieşirea cuantizorului este de dimensiune finită, elementele acestei mulţimi pot fi reprezentate printr-o secvenţă finită de numere binare (biţi) Această ultimă operaţie poartă denumirea de codare binară Astfel, o măsură de performanţă a oricărui sistem de compresie o reprezintă numărul mediu 2 de biţi utilizaţi pentru reprezentarea unui simbol al acestei mulţimi de valori (unitate de măsură: bit/simbol) Uneori, ţinând cont de dimensiunea temporală a semnalului din care provin eşantioanele cuantizate, această măsură se exprimă sub forma unei rate de simboluri binare pe secundă, ce corespunde vitezei de transfer necesare comunicării la distanţă a semnalului, definită prin numărul de biţi necesari reprezentării eşantioanelor cuantizate ale semnalului în timp continuu pe unitate de timp (unitate de măsură: bit/secundă) - descompunerea semnalului: implică găsirea unei reprezentări echivalente a semnalului, ce pune în evidenţă anumite structuri sau componente (de exemplu: descompunerea în diferite benzi de frecvenţe sau într-o bază de funcţii cu anumite proprietăţi), componente ce apoi pot fi cuantizate eficient şi, în general, în mod independent una de cealaltă - codarea de canal: implementată prin tehnici adiţionale menite să minimizeze efectul unor erori de bit ce pot să intervină în cazul comunicării semnalului comprimat printr-un canal cu perturbaţii Scopul lor este să evite o reconstrucţie mult sub performanţele aşteptate (este posibil ca eroarea de reconstrucţie să depăşească mult eroarea prevăzută de metoda de compresie) Un sistem care transformă un semnal analogic într-o reprezentare binară a sa prin eşantionare, cuantizare şi codare binară, este numit convertor analog-numeric, iar procesul, conversie analog-numerică (CAN) Procesul invers, de generare a unui semnal analogic prin decodarea unui semnal numeric poartă denumirea de conversie numeric-analogic (CNA) Aceste procese sunt caracteristice sistemelor de compresie ce lucrează cu semnale de intrare şi/sau ieşire analogice Procesul CAN este, prin natura lui, unul cu pierdere de informaţie deoarece, reprezentarea binară obţinută poartă în ea întotdeauna o cantitate de informaţie finită, în timp ce orice semnal analogic poartă în el, teoretic, o cantitate infinită de informaţie Pe parcursul lucrării ne vom referi la această reprezentare binară asociată semnalului prin termenul de reprezentare sursă Operaţia de compresie efectivă are loc, în general, în acest spaţiu discret, motiv pentru care se mai vorbeşte şi despre compresie numerică şi implică, de fapt, găsirea unei reprezentări alternative a semnalului, astfel încât noua reprezentare obţinută să fie una echivalentă cu reprezentarea sursă dar care să permită reconstrucţia semnalului iniţial folosind un număr mai redus de biţi decât cel al reprezentării iniţiale Acest lucru va permite ca semnalul, în această reprezentare a sa, să poată fi înmagazinat în fişiere de dimensiuni mai mici sau să poată fi comunicat mai repede şi/sau folosind o lărgime de bandă a canalului mai îngustă Raportul dintre numărul mediu de biţi/simbol al reprezentării sursă şi cel al reprezentării rezultate se numeşte raport de compresie El poate fi definit în mod similar şi în termenii ratelor de transfer asociate celor două reprezentări În funcţie de măsura în care această reprezentare echivalentă permite refacerea reprezentării sursă vom vorbi despre cele două metode de compresie: a) compresie fără pierdere (reconstrucţie exactă) şi, b) compresie cu pierdere (reconstrucţie aproximativă) 1 2 Compresie fără pierdere Este metoda de compresie ce oferă o reprezentare exactă dar mai compactă a informaţiei sursă Ea permite o reconstrucţie exactă a reprezentării sursă, ce este o reprezentare în timp discret şi cu valori discrete O astfel de reprezentare sursă se poate obţine, după cum am văzut în paragraful anterior, printr-o conversie analog/numerică a unui semnal în timp continuu sau printr-o cuantizare şi codare binară a unui semnal în timp discret Spaţiul valorilor reprezentării sursă are o dimensiune 3 finită Notând cu L această dimensiune şi cu xi,i=1,2,…,L elementele acestui spaţiu, vom privi reprezentarea sursă ca fiind un semnal în timp discret x[n] cu valorile în mulţimea {} L, ,2,1iix= O componentă xi a reprezentării sursă, ţinând cont de faptul că aceasta se exprimă sub forma unui şir finit de simboluri binare, poartă numele de mesaj sursă Mulţimea mesajelor sursă {} defineşte alfabetul reprezentării sursă O componentă a reprezentării finale (cea L, ,2,1iix= comprimată), deoarece aceasta codifică un mesaj sursă, poartă denumirea de cuvânt de cod În mod similar, mulţimea cuvintelor de cod defineşte alfabetul de ieşire al sistemului de compresie Astfel compresia numerică poate fi privită ca o funcţională (o corespondenţă) dintre spaţiul mesajelor sursă (alfabetul sursă) şi cel al cuvintelor de cod (alfabetul de ieşire) Este obligatoriu, deoarece se doreşte o codare fără pierdere, ca dimensiunea alfabetului de ieşire să fie egală cu cea a alfabetului sursei (egală cu L) Dacă această corespondenţă este fixă pe tot parcursul procesului de compresie, procedura se numeşte codare statică, în caz contrar, dacă aceste corespondenţe se modifică pe parcurs (de obicei în funcţie de statistica curentă a reprezentării sursă), vorbim de codare dinamică sau codare adaptivă Codările statice sunt utile în cazurile în care statisticile de intrare rămân invariabile, deoarece ele prezintă o complexitate de implementare mai redusă faţă de cele adaptive (deci implicit timp de codare mai scurt) De cele mai multe ori reprezentarea sursă este modelată printr-un proces aleator, de tip independent şi identic distribuit (i i d ), discret X[n], astfel încât x[n] este o realizare particulară a sa Conform terminologiei din Teoria Informaţiei vom vorbi despre sursă fără memorie Notând cu pi probabilitatea de apariţie a mesajului sursă xi, i=1,2,…,L cantitatea de informaţie a reprezentării sursă poate fi apreciată pe baza entropiei sursei: L () −=plogpXH (1 1) i2i = 1i Ea este o măsură a incertitudinii asociate sursei şi reprezintă de fapt cantitatea medie de informaţie oferită de o realizare a procesului aleator X Ea se exprimă în biţi/simbol şi indică numărul mediu de simboluri binare necesare codificării în mod univoc a unui simbol al reprezentării sursă În cazul unei dimensiuni L finite entropia H(X) verifică: () LlogXH0≤≤ (1 2) 2 Performanţele sistemului de compresie fără pierdere depind în foarte mare măsură de statistica sursei Rezultate ale Teoriei Informaţiei arată, [Sha 49], că nu este posibilă obţinerea, prin metode de compresie fără pierdere, a unei reprezentări echivalente (finale) ce să fie caracterizată printr-un număr mediu de biţi/simbol mai mic decât entropia (1 1) semnalului sursă (entropia Shannon), ceea ce statuează existenţa unei limite a raportului de compresie obtenabile Ţinând cont de definiţia raportului de compresie, aceea de raport dintre numărul mediu de biţi/simbol al reprezentării sursă şi cel al reprezentării finale, şi având în vedere că reprezentarea sursă se caracterizează, de obicei, printr-un număr mediu de Llogb= 2 biţi/simbol, observaţia anterioară este evidentă Cu cât diferenţa dintre b şi entropia sursei H(X) este mai mare cu atât este posibilă obţinerea unui raport de compresie mai mare Această diferenţă defineşte redundanţa sursei: () (1 3) () XHLlogXR−= 2 Notând cu ci,i=1,2,…,L elementele alfabetului de ieşire (cuvintele de cod) şi cu li lungimile acestora, aceeaşi teorie ne asigură, [Sha 49], că există cel puţin un cod fizic realizabil caracterizat L ⋅=lpl, ce verifică inegalitatea: printr-o lungime medie a cuvintelor de cod, () ii = 1i 4 () ()1XHlXH+≤≤ (1 4) Ultima relaţie indică faptul că este posibilă construcţia unor coduri “bune”, deci a unor coduri ce oferă un raport de compresie aproape de limita teoretică, ale căror performanţe însă depind în mare măsură de reprezentarea sursă Această lungime medie defineşte rata de bit a sistemului de compresie, şi reprezintă o măsură a gradului de încărcare cu informaţie a fiecărui eşantion codificat binar în scopul transmisiei, prelucrării sau stocării sale numerice Cum compresia fără pierdere asociază un cuvânt de cod ci în mod univoc unui simbol xi rezultă că, la ieşirea sistemului de compresie, probabilitatea de apariţie a cuvântului de cod ci va fi tot pi ceea ce ne indică faptul că entropia reprezentării finale este egală cu cea a sursei Deci, compresia fără pierdere conservă entropia sursei Se poate arăta, [Sha 49], că rezoluţia de aproximare de un bit, dată de relaţia (1 4) poate fi îmbunătăţită Astfel, de exemplu, dacă se grupează un număr M de simboluri succesive ale reprezentării sursă căruia i se asociază un cuvânt de cod ci de lungime li atunci lungimea medie lverifică: 1l ()() (1 5) XHXH+≤≤ MM În multe situaţii practice ipoteza de proces staţionar i i d a sursei nu este verificată Frecvent simbolurile succesive ale reprezentării sursă sunt corelate între ele Această corelaţie va permite obţinerea unui factor de compresie mai mare decât cel ce se poate obţine în cazul unei surse i i d Astfel, de exemplu, pentru cazul codării pe grupuri de M simboluri, construind vectorul aleator [] şi considerând probabilitatea compusă: M21X, ,X,XX= { } ∧∧=∧==, (1 6) () MM2211xX xXxXPrxp= se poate defini entropia vectorului X ca fiind: () () (1 7) () −=xplogxpXH 2 M21x, ,x,x Pe baza definiţiei (1 7) se poate defini debitul entropic al sursei X cu formula: 1 () ()XHlimXH=, (1 8) MM∞ → care verifică, [Mor 95]: () () XHXH0≤≤, (1 9) cu () () în cazul unei surse staţionare i i d XHXH= XH oferă limita inferioară a ratei de bit În [Mor 95] se arată că de fapt acest debit entropic () a unui sistem de compresie cu reconstrucţie exactă, şi că el este identic cu entropia Shannon doar în cazul unui proces aleator de intrare X independent Având în vedere faptul că entropia sursei se conservă, în sensul că reprezentarea alternativă va avea o entropie cel puţin egală cu cea a sursei, aceste metode de compresie mai sunt denumite şi codări entropice sau codări fără zgomot În funcţie de natura mesajelor sursă şi a cuvintelor de cod obţinute tehnicile de codare se clasifică în: - codări bloc-bloc, caracterizate prin faptul că atât mesajele sursă cât şi cuvintele de cod au lungimi egale, raportul de compresie fiind dat de raportul celor două lungimi caracteristice; 5 - codări bloc-variabil, caracterizate prin faptul că mesajele sursă au lungimi egale în timp ce cuvintele de cod au lungimi diferite, permiţând o mai bună aproximare a limitei teoretice; - codări variabil-bloc, caracterizate prin mesaje sursă de lungime variabilă şi cuvinte de cod de lungimi egale; - codări variabil-variabil, caracterizate atât prin mesaje sursă cât şi cuvinte de cod de lungime variabile Compresia fără pierdere cunoaşte două paradigme majore: a) codare statistică, ce presupune estimarea statisticilor de intrare şi înlocuirea unor structuri repetitive cu anumite coduri scurte; de exemplu: codarea aritmetică, codarea Huffman; b) metode bazate pe un dicţionar de combinaţii de simboluri posibile (un codebook), ce codifică o anumită structură de cod prin referirea la o apariţie anterioară a sa; de exemplu: codarea Lempel-Ziv Această ultimă categorie oferă metode ce sunt mai rapide atât din punct de vedere software cât şi hardware, avantaj ce este vizibil mai ales pentru lungimi semnificative ale mesajelor sursă Astfel, de exemplu, se poate implementa foarte uşor paralelizarea căutărilor în cadrul bibliotecii ameliorând foarte mult performanţele metodei Metodele de codare cele mai eficiente sunt cele adaptive, prezente în implementări cu aplicabilitate universală Astfel de exemplu metoda Huffman adaptivă a fost implementată în programele de compresie DOS-arc şi pkarc, Unix-compact, în sistemele de compresie MPEG, variante adaptive ale algoritmului Lempel-Ziv sunt utilizate în programele Unix-compress (LZ78), gzip (LZW), DOS-zip, arj, lha (LZ77) 1 3 Compresie cu pierdere După cum s-a văzut, compresia cu pierdere permite neglijarea unei anumite părţi din informaţia sursă în vederea obţinerii unei reprezentări mai compacte, însă permite doar o reconstrucţie aproximativă Metoda este eficientă dacă diferenţele dintre semnalul sursă şi cel reconstruit vor fi imperceptibile sau vor avea efect redus (sau chiar neglijabil) din punct de vedere al aplicaţiei semnalului reconstruit Există însă aplicaţii în care sunt tolerate chiar si degradări substanţiale, perceptibile la reconstrucţie, aplicaţii ce permit astfel obţinerea unui raport de compresie semnificativ mai mare Aceste considerente indică însă faptul că, de fapt, nu există nici măcar un criteriu unic de evaluare a performanţelor acestor metode Cea mai veche şi cea mai simplă metodă de codare cu pierdere o reprezintă sistemul PCM (Pulse Coded Modulation), brevetat în 1939 [Ger 78] Acest sistem asociază fiecărui semnal o reprezentare cu un număr de biţi/simbol constant, obţinuţi printr-o eşantionare şi o cuantizare uniformă a acestor eşantioane Cu cât acest număr de biţi este mai mare cantitatea de informaţie pierdută este mai mică iar reprezentarea găsită este mai bună De exemplu, reprezentarea semnalului audio, eşantionat cu frecvenţa de 44 1 kHz şi cuantizat cu 16 biţi/eşantion, a devenit un standard “de facto” pentru semnalul audio numeric de înaltă fidelitate Acest lucru se datorează faptului că reprezentarea de mai sus implică pierderi de informaţie imperceptibile sistemului auditiv uman Însă, neglijarea unei cantităţi mai mici de informaţie este echivalentă cu un factor de compresie mai redus Din acest motiv utilizatorul trebuie să se decidă asupra raportului distorsiune/număr de biţi de reprezentare, în funcţie de aplicaţia concretă O evaluare a cantităţii de informaţie pierdută într-un proces de cuantizare uniformă poate fi făcută conform propunerii lui Renyi din 1959, [Gra 98] El a arătat că dacă sursa X este un proces aleator staţionar, caracterizat de o funcţie densitate de 6 probabilitate continuă ()xp, iar cuantizorul Q este un cuantizor uniform cu un număr L de nivele X YH a procesului Y=Q(X) de la ieşirea ce tinde la infinit, notând cu ∆ pasul de cuantizare, entropia () cuantizorului se poate aproxima, conform cu: () ( )()() (1 10) ∆−≅=logXhXQHYH 2 ∞ () () unde: () dxxplogxpXh⋅⋅−= (1 11) X2X ∞− reprezintă entropia diferenţială de ordin întâi a procesului de intrare Avantajul oferit de o astfel de reprezentare cuantizată a unui semnal constă în faptul că ea este una în timp discret; prelucrările ulterioare ale ei implică sisteme numerice Evaluările practice ale lor arată că sistemele numerice ce operează cu astfel de semnale sunt mai robuste, mai insensibile la perturbaţii de mediu şi mai fiabile decât cele analogice Astfel de exemplu, nici un semnal analogic nu poate fi transmis fără distorsiuni printr-un canal de comunicaţii zgomotos în timp ce semnalele numerice pot fi reconstruite, în anumite condiţii, cu exactitate [Sha 49] Astfel, performanţele superioare ale transmisiunilor numerice stau la baza popularităţii sistemului ISDN în domeniul telefoniei (semnalul vocal este limitat în bandă la frecvenţa de 4 kHz, eşantionat Nyquist, cu 8 kHz, eşantioanele sunt codate PCM cu 8 biţi/eşantion şi se transmite, printr-un canal telefonic obişnuit, semnalul numeric obţinut printr-o codare de linie obişnuită (codul AMI) a eşantioanelor codate) Calitatea unui sistem de compresie cu pierdere poate fi măsurată prin intermediul erorii cu care semnalul reconstruit din cel comprimat aproximează semnalul original O cale de evaluare a acestei calităţi constă în definirea unei măsuri a distorsiunii, adică a unei distanţe dintre cele două semnale Notând cu x semnalul de intrare şi cu xˆ cel reconstruit, se poate defini o distanţă () xˆ,xd ce reflectă diferenţele dintre cele două semnale Ea permite definirea unei distorsiunii medii D, ca o xˆ,xd este evaluată prin eroarea pătratică măsură de calitate a sistemului În mod obişnuit distanţa () de aproximare: 2 () xˆxxˆ,xd−= (1 12) caz în care distorsiunea D nu este altceva decât eroarea medie pătratică de aproximare, MSE (Mean Square Error) Distorsiunea D este evaluată prin simpla mediere, dacă se cunoaşte semnalul x de la intrarea sistemului de compresie, sau ca şi o distanţă medie ponderată, în cazul general: ∞ ()() ⋅⋅=dxxwxˆ,xdD (1 13) ∞− unde funcţia de ponderare w(x) este o funcţie continuă, mărginită, cu valori pozitive şi care verifică condiţia: ∞ () 1dxxw= (1 14) ∞− În cazul în care semnalul de intrare x este o realizare particulară a unui proces aleator staţionar X, cu funcţia densitate de probabilitate () xp, funcţia de ponderare optimă w(x) se găseşte X ca fiind chiar () xp, caz în care distorsiunea sistemului se calculează conform: X ∞ () () (1 15) ⋅⋅=dxxpxˆ,xdD X ∞− 7 Este de dorit ca distorsiunea D să fie cât mai mică posibil Acest lucru implică însă şi un factor de compresie mai redus Performanţele sistemului de compresie pot fi îmbunătăţite recurgând, alături de cuantizare, la procedee suplimentare de compresie, cu sau fără pierdere Aceste metode caută să realizeze un optim din punct de vedere al raportului de compresie/distorsiune Proiectantul este cel care decide dacă câştigul în performanţă astfel obţinut justifică sau nu creşterea în complexitate a sistemului O serie de tehnici de compresie combină cu succes metodele simple de cuantizare cu o serie de metode de prelucrări de semnale menite să reducă informaţia nerelevantă din semnal sau să descompună semnalul în componente care pot fi codate (comprimate) în mod eficient Exemple de astfel de codări sunt: codările predictive (PCM diferenţial - DPCM, DPCM adaptiv - ADPCM, codări cu predicţie liniară - LPC, predicţie liniară cu excitare în cod - CELP) şi codările prin transformare (algoritmul transformării Fourier rapide - FFT, transformarea Karhunen-Loeve - KLT, transformarea cosinus discretă - DCT, transformarea sinus discretă - DST, transformarea Haar, Hadamard, Walsh, Hartley, Wavelet etc ), [Sto 88], [Mor 95] 1 4 Descompunerea semnalului prin transformări ale spaţiului de reprezentare Cele mai utilizate proceduri de compresie sunt cele cu descompunerea semnalului, ce se realizează, de obicei, prin găsirea unei reprezentări echivalente ce pune în evidenţă anumite structuri caracteristice de date Această operaţie poate fi privită ca o fază de preprocesare a semnalului, ce precede faza de compresie efectivă Există o serie de proceduri menite să ducă la o reprezentare mai eficientă a semnalului Astfel, unele proceduri îşi propun reducerea sau eliminarea corelaţiei existente în reprezentarea iniţială Este cazul atât a procedurilor predictive mai sus amintite (DPCM, ADPCM, LPC, CELP), cât şi a unor transformări ortogonale sau neortogonale (Karhunen-Loeve, Wavelet ortogonal şi biortogonal, etc ) Scopul urmărit este, în general, concentrarea unei cantităţi de informaţie cât mai mare pe un număr de coeficienţi ai descompunerii cât mai redus astfel încât prin reţinerea doar a acestor coeficienţi să se obţină un factor de compresie mare fără a degrada în mod semnificativ calitatea semnalului reconstruit Urmărind o complexitate a implementării cât mai redusă se lucrează de preferinţă cu transformări liniare reversibile sau care oferă o reconstrucţie aproximativă rapidă Sunt preferate transformările liniare ortogonale Se preferă, de asemenea, acele transformări care oferă reprezentări cu caracteristici similare pentru semnale de intrare cu caracteristici statistice diferite, oferind astfel un anumit grad de universalitate în utilizarea lor De obicei, coeficienţii de ordin inferior din domeniul transformat concentrează mai multă energie şi astfel sunt mai importanţi din punct de vedere al reconstrucţiei La cuantizare, alocând un număr de biţi mai mare acestor coeficienţi vom realiza o alocare de bit optimală Printr-o transformare ortogonală liniară semnalul este exprimat ca o combinaţie liniară de funcţii ce formează o bază ortonormală în spaţiul de semnale considerat Se spune că semnalul a fost descompus într-o bază de funcţii ortonormate Calitatea reprezentării depinde în mod direct atât de calităţile funcţiilor bazei cât şi de cele ale semnalului analizat Exemple de astfel de baze sunt: - exponenţialele complexe în cazul transformării Fourier, - undele cosinusoidale în cazul transformării Cosinus, - versiunile deplasate şi scalate ale unei singure funcţii, în cazul transformării Wavelet, etc 8 ∞ Exponenţialele complexe sunt funcţii de clasă C, regulate, infinit derivabile, şi cu suport infinit Ele sunt adecvate analizei unor semnale foarte regulate, cu caracteristici staţionare sau repetitive Performanţele lor sunt însă slabe în cazul unui semnal care este regulat pe porţiuni, şi care prezintă salturi finite într-o mulţime numărabilă de puncte Se cunoaşte faptul că un singur salt brusc în semnalul analizat are efect asupra tuturor componentelor descompunerii; coeficienţii , ceea ce, din punct descompunerii vor fi cu o descreştere proporţională cu inversul frecvenţei, 1/ξ de vedere al scopului urmărit, s-ar putea să fie nesatisfăcător Astfel şi caracteristicile semnalului de prelucrat influenţează într-o mare măsură calitatea sistemului de compresie Din acest motiv s-au dezvoltat o serie de sisteme bazate pe ipoteze cu privire la semnalul de intrare, ipoteze ce stau la baza alegerii unei transformări adecvate Alternative la codările prin transformări ortogonale liniare sunt: - transformările semiortogonale sau biortogonale, - codarea în subbenzi, - codarea prin segmentare, - codările multirezoluţie (ierarhice) Codarea în subbenzi este o metodă foarte apropiată celei prin transformări liniare Ea transformă reprezentarea temporală sau spaţială, într-una frecvenţială, prin descompunerea sa în benzi de frecvenţe diferite Rezultatul este subeşationat (în vederea păstrării numărului total de eşantioane) şi cuantizat, acordând o atenţie deosebită procesului de alocare de bit Sistemul poate fi privit ca fiind format dintr-o bancă de filtre în care fiecare filtrare este urmată de un proces de sub- eşantionare Reconstrucţia se face intr-o manieră similară descompunerii, cu o bancă de filtre ce filtrează versiunile expandate ale semnalelor subeşantionate Codarea prin segmentare se realizează prin împărţirea semnalului de intrare în segmente de semnal în care semnalul are un comportament staţionar, urmată de aplicarea unor proceduri de prelucrare şi cuantizare ulterioare, adaptate la caracteristicile segmentului Este o metodă foarte eficientă de codare a acelor semnale nestaţionare care pot fi aproximate prin semnale staţionare pe porţiuni De exemplu, un semnal cu variaţie polinomială pe porţiuni poate fi segmentat in conformitate cu aceste intervale, segmente ce pot fi codate aplicând transformări ortogonale adaptate acestor caracteristici Codarea multirezoluţie construieşte o reprezentare a semnalului de intrare pe mai multe nivele ierarhice de rezoluţie Nivelele succesive corespund unor reprezentări ce permit reconstrucţii cu o rezoluţie din ce în ce mai bună Sunt proceduri ce se folosesc cu precădere în aplicaţii sensibile la întârzierile de decodare Astfel, în funcţie de performanţele echipamentului disponibil, orice aplicaţie va putea beneficia de un semnal reconstruit cu o anumită precizie nedepăşind o durată de timp a reconstrucţiei maximă, impusă Este cazul acelor aplicaţii în timp real unde obţinerea unei valori reconstruite la timp este mai importantă decât precizia de reconstrucţie Astfel, de exemplu, în cazul unui semnal vocal eşantionat cu 8 kHz, avem la dispoziţie 125 µs pentru decodarea unui eşantion, după care valoarea acestuia nu mai prezintă interes Metodele de descompunere prin transformări sunt: - transformările pe blocuri - secvenţa de eşantioane de la intrare se fragmentează în blocuri disjuncte de N eşantioane, iar fiecare bloc este tratat separat printr-o transformare de obicei ortogonală 9 - transformările pe blocuri parţial suprapuse - sunt similare cu metoda anterioară, au ca şi scop eliminarea sau atenuarea efectelor de margine ce apare deseori la prelucrări pe blocuri - transformările cu fereastră alunecătoare Imaginea cea mai clară este cea a unei bănci de filtre cu subeşantionare - transformările redundante - oferă o reprezentare redundantă a semnalului Est cazul reprezentărilor obţinute prin discretizarea reprezentărilor continue În aceste cazuri se poate obţine un câştig prin cerinţe de cuantizare mai puţin restrictive (cuantizare mai grosolană) 1 5 Compresia adaptivă şi compresia universală O serie de sisteme de compresie se bazează pe ipoteze despre statistica semnalului de intrare Acest lucru permite sistemului de compresie să beneficieze de avantajele oferite de anumite structuri particulare ale surselor de date De asemenea ea permite să se efectueze studii teoretice de evaluare a performanţelor sistemului optimal O problemă reprezintă evaluarea limitelor acestor performanţe în cazurile în care statistica de intrare este incomplet cunoscută Există două direcţii de dezvoltare: - compresia adaptivă, - compresia universală Codările adaptive “învaţă” în mod continuu parametrii structurali ai semnalului de intrare şi modifică parametrii de codare în sensul adaptării la cerinţele intrării Codările universale construiesc o colecţie de algoritmi de compresie, diferiţi pentru diferite şiruri de semnale şi apoi se decide asupra unuia dintre ei, cel cu performanţele cele mai bune Trebuie observat faptul că deşi ambele metode îşi propun aceleaşi obiective, ele conduc la implementări mult diferite În concluzie, nu există metodă de compresie cu pierdere care să fie universală, care să fie cea mai bună în toate aplicaţiile posibile, adecvată tuturor semnalelor Au fost elaborate o serie de propuneri noi, unele standardizate, însă care pot fi, şi chiar şi sunt, îmbunătăţite prin cercetări curente Scopul urmărit, şi anume obţinerea unei reprezentări foarte compacte (reprezentare pe un număr redus de biţi) care să ofere o reconstrucţie foarte bună şi, pe măsura posibilităţilor, să aibă o complexitate cât mai redusă atât din punct de vedere al efortului de calcul cât şi din cel al hardware- ului implicat, n-a fost încă atins şi nici nu poate fi atins deoarece, deseori, optimizarea anumitor cerinţe presupune măsuri ce vin în contradicţie cu alte măsuri necesar a fi luate în vederea satisfacerii celorlalte cerinţe 1 6 Reprezentarea optimală a semnalului Din expunerea anterioară rezultă că o semnificaţie majoră o are reprezentarea adecvată a semnalului ce urmează a fi comprimat Există o serie de metode menite să ducă la o reprezentare optimă (din punct de vedere al compresiei) a semnalului Sunt considerate reprezentări “bune” acele reprezentări care reuşesc să capteze “informaţia esenţială” a semnalului O problemă majoră rămâne însă faptul că această “informaţie esenţială” depinde atât de semnalul considerat cât şi de aplicaţia propriu-zisă în care acesta apare Metodele tradiţionale de analiză/sinteză de semnal folosesc baze ortogonale Reprezentarea este neredundantă, însă s-a dovedit a fi dificilă alegerea acelei baze care ar putea să asigure acea optimalitate în reprezentarea semnalului, în cazurile în care aplicaţia 10 considerată implică semnale cu caracteristici diferite sau semnale nestaţionare Ca şi alternativă, sunt propuse o serie de reprezentări noi, care descompun semnalul în funcţii (componente) elementare ce nu sunt neapărat ortogonale Asemenea familii de funcţii nu formează baze ortogonale, deseori sunt redundante, permiţând însă o anumită flexibilitate în ceea ce priveşte posibilitatea de reprezentare Reprezentările posibile nu sunt unice, astfel încât se poate impune un criteriu de selecţie, pe baza căruia se găseşte reprezentarea optimală Asemenea mulţimi de funcţii sunt de exemplu structurile oblice (de “cadru” sau “frame” în limba engleză), care pot fi utilizate cu succes la descompunerea unor semnale 1 7 Conţinutul lucrării În această lucrare este făcută o analiză comparativă a performanţelor unor sisteme adaptive de compresie cu pierdere în ipoteza unor semnale de intrare cu diferite caracteristici (de bandă ∞N limitată, cu variaţie polinomială sau polinomială pe porţiuni, de clasă C sau C, cu N finit, pe toată axa reală sau pe porţiuni, semnale aleatoare staţionare (cu diverse caracteristici statistice) sau nestaţionare dar cu caracteristici staţionare pe porţiuni etc ), sisteme ce, în vederea adaptării la aceste caracteristici de intrare, utilizează diferite metode de transformare a spaţiului de reprezentare a informaţiei sursă Se caută descompuneri optimale, baze de funcţii “bune”, ce oferă cele mai bune performanţe în condiţiile date Astfel, se arată că printre candidate se numără bazele de funcţii cu localizare bună atât în timp cât şi în frecvenţă, de exemplu, funcţiile trigonometrice locale, sau bazele de funcţii “Wavelet” (ce ocupă chiar un loc privilegiat în această expunere), ortogonale sau biortogonale, pachetele de funcţii “Wavelet” Se pun în evidenţă legăturile inerente ce există între proprietăţile funcţiilor bazei şi cele ale semnalului de analizat ce se doresc a fi evidenţiate Vor fi indicate câteva modalit ăţi de căutare sau de construcţie a unor asemenea baze Sunt studiate şi evaluate metode adaptive de cuantizare a coeficienţilor transformării Studiul fiind făcut atât pentru semnale în timp continuu cât şi pentru cele în timp discret, se face o investigare a legăturii dintre cele două spaţii, şi se propun noi metode de reconstrucţie a semnalelor analogice În cele ce urmează, în acest capitol, se introduc funcţiile rată-distorsiune şi distorsiune-rată, două măsuri de performanţă ale unor sisteme de compresie cu pierdere Importanţa lor rezidă în faptul că ele ne pot indica anumite limite teoretice a performanţelor unor sisteme de compresie, limite ale căror cunoaştere se poate dovedi a fi utilă în construcţia efectivă a acestor sisteme Ele oferă măsuri care permit realizarea unor comparaţii efective între sisteme de compresie cu structuri şi principii de funcţionare diferite Următoarele capitole ale acestei lucrări sunt dedicate prezentării unor aspecte teoretice şi practice ale structurii unor sisteme de compresie bazate pe transformarea spaţiului de reprezentare a semnalului sursă În cel de al doilea capitol se prezintă o serie de rezultate teoretice clasice privind performanţele obtenabile ale unor tehnici diferite de cuantizare Sunt trecute în revistă procedeele de cuantizare scalară uniformă şi neuniformă, procedee de cuantizare vectorială, indicându-se performanţele limită obtenabile Sunt prezentate, de asemenea, algoritmi eficienţi de construcţie a unor cuantizoare scalare sau vectoriale optimale, în condiţiile în care se cunosc statisticile procesului de intrarea (algoritmul Lloyd-Max pentru cazul scalar şi respectiv algoritmul LBG în cazul vectorial) Cel de al treilea capitol este dedicat găsirii unor reprezentări alternative eficiente ale procesului sursă Este vorba despre studiul unei serii întregi de transformări ce, aplicate semnalului de intrare, duc la reprezentări ce se dovedesc a fi utile din punct de vedere al compresiei acestuia 11 Din acest motiv aceste proceduri reprezintă faze de preprocesare a semnalului înainte de compresia sa efectivă Sunt studiate calit ăţile unor baze de spaţii de semnale construite din funcţii cu proprietăţi bune de regularitate, de moment, de localizare în planul timp frecvenţă etc Sunt avute în vedere reprezentările bazate pe funcţii de tip Wavelet diferite (ortogonale, semiortogonale, biortogonale, cu suport compact, cu regularităţi diferite) precum şi reprezentări derivate, cum sunt cele de descompunere în baze de pachete de funcţii Wavelet Se indică principalele motive din care aceste transformări se pot dovedi utile în aplicaţii de compresie, se prezintă o serie modalităţi efective de utilizarea lor eficientă, prin implementări de algoritmi rapizi de calcul al coeficienţilor descompunerii Sunt abordate, de asemenea, şi alte tipuri de reprezentări timp-frecvenţă cum sunt cele oferite de descompunerile în baze de funcţii trigonometrice locale (unde cosinusoidale şi/sau sinusoidale locale), precum şi cele de pachete de funcţii trigonometrice locale Următorul capitol, dedicat compresiei de semnal prin transformări ortogonale, abordează cazul compresiei semnalelor în timp discret, de lungime finită Sunt analizate performanţele unor transformări clasice, cum sunt Transformarea Fourier Discretă (TFD), DCT sau DST în comparaţie cu cele ale unor transformări mai recente cum sunt cele bazate pe funcţii Wavelet, funcţii trigonometrice locale, pachete de funcţii Wavelet şi pachete de funcţii trigonometrice locale Sunt prezentate proceduri rapide de calcul, implementate sub forma unor algoritmi numerice eficienţi, cum sunt FFT, DCT, DST, FWT (Transformarea Wavelet Rapidă, Fast Wavelet Transform), FWPT (Fast Wavelet Packet Transform), DLCT (Discrete Local Cosine Transform) Se prezintă, de asemenea, o procedură de alocare de bit optimală utilizabilă în construcţia sistemelor de compresie bazate pe aceste transformări ortogonale Al cincilea capitol are ca subiect sistemele de codare în subbenzi Sunt abordate proprietăţile unor bănci de filtre cu reconstrucţie perfectă într-un context de paralelism cu teoria Wavelet Sunt indicate proceduri de construcţie a unor bănci de filtre ce corespund unor descompuneri Wavelet în baze de funcţii Wavelet cu anumite proprietăţi impuse (de suport compact, regularitate, număr de momente nule etc ) Sunt studiate structuri de bănci de filtre cu căi multiple uniforme şi respectiv neuniforme Se prezintă, de asemenea, o procedură de alocare de bit optimală utilizabilă în construcţia sistemelor de compresie incluzând structuri de bănci de filtre cu reconstrucţie exactă precum şi cuantizoare dimensionate în mod adaptiv în funcţie de caracteristicilor semnalelor din subbenzile frecvenţiale Cel de al şaselea capitol, rezervat verificărilor şi propunerilor practice prezintă o serie de soluţii de sisteme de compresie universală sau adaptivă, utilizabile pentru compresia unor tipuri diferite de semnale Sunt avute în vedere sisteme de compresie de semnale monodimensionale Sunt indicate implementări efective de sisteme de compresie, bazate pe funcţii Wavelet, testate cu ajutorul unor semnale test (de formă sinusoidală, dreptinghiulară şi de tip “Chirp”) Sunt prezentate câteva soluţii posibile pentru rezolvarea unor probleme tehnice cum sunt cele legate de problemele de margine din cauza prelucrărilor pe blocuri de date de lungimi finite Aceste propuneri au în vedere prelungirea prin periodicitate, oglindirea la margine, prelungirea prin extrapolare polinomială precum şi prelucrarea pe blocuri parţial suprapuse Se prezintă proceduri adaptive de compresie prin metode Wavelet a unor semnale de un anumit grad de regularitate Se indică o soluţie de sistem adaptiv care este capabil de a efectua o compresie bazată pe o segmentare adaptivă şi găsirea bazei de funcţii Wavelet optimale de reprezentare a fiecărui segment În acest sens este făcută o demonstraţie a optimalităţii unor funcţii Wavelet cu suport compact în contextul prelucrării pe blocuri finite a unor semnale cu o anumită regularitate (cu variaţie polinomială) pe porţiuni Ultimul capitol, cel de al şaptelea, începe cu prezentarea unui exemplu concret de implementare a unor sisteme de codare în subbenzi frecvenţiale, şi-anume sistemul MPEG Audio, 12 de compresie transparentă a semnalului audio de înaltă calitate Sunt prezentate apoi structuri similare de sisteme (de compresie de semnal audio) folosind funcţii Wavelet ortogonale Rezultatele experimentării acestor sisteme sunt comparate cu cele ale sistemelor MPEG Experimentul este repetat apoi în contextul unor descompuneri în pachete de funcţii Wavelet, aplicând proceduri adaptive de căutare a celei mai bune baze Sunt indicate şi soluţii în care acest proces adaptiv de selecţie a celei mai bune baze este ghidat de proprietăţile psiho-acustice ale sistemului auditiv uman (soluţii apropiate de sistemul MPEG-Audio) Experimente de compresie a unor semnale test precum şi semnale audio sunt efectuate şi folosind descompuneri în baze de funcţii trigonometrice locale precum şi în baze de pachete de funcţii trigonometrice locale Sunt verificate şi în acest caz eficacitatea tehnicilor de corecţie utilizate în cazul aplicării funcţiilor Wavelet în vederea rezolvării unor probleme practice de sistem Rezultatele sunt evaluate prin prisma performanţelor ale sistemelor obţinute Sunt avute în vedere măsuri de performanţă cum sunt raportul de compresie, distorsiunea de reconstrucţie, viteza de codare şi/sau de decodare, complexitatea sistemului La sfârşitul acestui capitol se trag o serie de concluzii privind tematica abordată pe parcursul celor şapte capitole 1 8 Funcţia rată-distorsiune b(D) şi funcţia distorsiune-rată D(b) În §1 3 s-a definit distorsiunea medie de aproximare ca fiind o măsură a calităţii sistemului S-a menţionat faptul că se obţine un factor de compresie mai redus dacă această distorsiune este mai redusă Ţinând cont de definiţia dată în §1 2 a raportului de compresie, rezultă că aceasta se raportează la lungimea medie (în biţi) a cuvintelor de cod ale reprezentării finale S-a specificat, de asemenea, că această lungime medie defineşte rata de bit, b, a sistemului de compresie Având în vedere faptul că şi în cazul compresiei cu pierderi reprezentarea finală urmărită conţine, în mod similar compresiei fără pierdere, un număr finit de cuvinte de cod, măsura rata de bit, definită ca fiind lungimea medie a cuvintelor de cod (a alfabetului de ieşire), poate fi extinsă şi pentru acest caz În acest caz însă în evaluarea performanţelor sistemului apare problema interdependenţei dintre cele două măsuri de bază, distorsiunea D şi rata de bit b În construcţia sistemelor de compresie se pune frecvent problema găsirii acelui sistem care oferă distorsiunea minimă D pentru o rată de bit maximă impusă b (se doreşte, spre exemplu, comunicarea semnalului comprimat printr-un canal cu capacitate finită) Alteori se pune problema inversă: care este rata de bit minimă obtenabilă b astfel încât sistemul de compresie construit să ofere o distorsiune maximă egală cu o valoare D impusă Se poate pune problema existenţei unei limite a tuturor combinaţiilor D(b) şi respectiv, în mod similar, b(D) posibile Răspunsul la această ultimă problemă este dat de Teoria Comunicaţiilor a lui Shannon, [Sha 49], prin aplicarea unor rezultate cu privire la canalele de comunicaţii cu perturbaţii pentru sistemele de compresie Astfel, să considerăm un proces aleator i i d X la intrarea unui canal cu perturbaţii Notăm cu Y semnalul recepţionat la celălalt capăt al canalului Notând, de asemenea xp şi, respectiv, ()yp, funcţiile densitate de probabilitate ale celor două procese, se pune cu () XY problema evaluării distorsiunii minime D obtenabile dacă transmisia se face cu o rată de bit cel mult egală cu b Soluţia lui Shannon se poate pune sub forma: ∞∞ 2 ()() (1 16) () ()dydxxypxpyxminargbD⋅⋅⋅−= XYX p∞ ∞− XY− xyp posibile, unde minimul se caută peste toate densităţile de probabilitate condiţionale () XY cu condiţia: 13 () xyp∞ XY∞ ()()bdydxxypxplog≤⋅⋅⋅ (1 17) XYX2 ∞ ∞−∞− () duuypup⋅ () XYX⋅ ∞− În expresia (1 17) recunoaştem, de fapt, definiţia informaţiei mutuale dintre X şi Y Notată cu I(X;Y), această mărime indică gradul de asemănare a celor două procese Ea este egală cu zero dacă cele două procese sunt independente şi are valoare maximă dacă cele două procese sunt funcţional dependente (în sensul că X este o funcţie de Y şi vice-versa) Recunoscând, de asemenea, eroarea 2 {} în expresia (1 16), se poate scrie: medie pătratică de aproximare () YXE− 2 () ( ){}(){} (1 18) bY;XI:YXEminbD≤−= o expresie ce, în majoritatea cazurilor, nu poate fi explicitată Excepţia o constituie sursa i i d 2 gaussiană cu medie nulă şi dispersie σ În acest caz se găseşte [Sha 49]: X b22− () = (1 19) X2bDσ În termenii sistemului de compresie funcţia distorsiune-rată, D(b), indică distorsiunea minimă obtenabilă la ieşirea unui canal de comunicaţii fără pierdere dacă semnalul prelucrat de un sistem de compresie a fost transmis prin canal cu o rată de bit maxim egală cu b Funcţia rată-distorsiune b(D) este duala funcţiei distorsiune-rată Ea indică rata minimă de informaţie (biţi/simbol) cu care semnalul prelucrat de un sistem de compresie poate fi transmis printr-un canal fără perturbaţii şi reconstruit la recepţie în limitele unei distorsiuni posibile (D) Se arată, de asemenea, [Sha 49], [Mor 95], [Gra 98], că rezultatul (1 19), obţinut pentru sursă i i d gaussiană, este o limită superioară dacă ne raportăm la natura sursei (gaussiană în acest caz) Se arată ca dacă sursa este i i d dar cu o distribuţie diferită de cea gaussiană, cu medie nulă şi 2 cu aceeaşi dispersie σ X, atunci : 2 X1σ 2 () Dblog≤, pentru D0σ≤≤ (1 20) 2X D2 egalitatea apare, bineânţeles, conform relaţiei (1 19), doar în cazul gaussian Această ultimă observaţie are un impact major în construcţia sistemelor de compresie optimale şi suboptimale în sensul că ea garantează că un sistem construit pe baza ipotezei unei surse i i d gaussiene va oferi o distorsiune în reconstrucţie mai mică decât cea dată de (1 19), la aceeaşi rată de bit b, pentru o altă sursă i i d negaussiană Altfel spus, notând această funcţie limită, corespunzătoare cazului gaussian, cu () Db, pentru orice rată de informaţie ()Dbb> GG sistemele 2 care sunt proiectate să atingă o distorsiune D, pentru o sursă i i d gaussiană cu dispersie σ X, vor asigura o distorsiune care nu depăşeşte această valoare D pentru orice altă sursă staţionară având aceeaşi dispersie Astfel, în cazurile în care nu se cunoaşte exact natura stohastică a sursei, se recomandă, ca în proiectarea sistemului de compresie, să se lucreze cu ipoteza unei surse i i d gaussiană Pentru compresia semnalului generat de sursă un interes practic deosebit prezintă valorile limită inferioare ale funcţiei () Db, valori ce stabilesc informaţia medie minimă pe simbol transmis, limită sub care, refacerea semnalului la utilizator nu mai este posibilă decât cu o distorsiune superioară celei prestabilite (D) Pentru cazul unei surse continue şi a utilizării unei metrici de 2 yxy,xd−=), Shannon a determinat următoarea limită inferioară: distanţă pătratică (() 1 () ()() biţi/simbol (1 21) eD2logXhDbπ−= lim 2 14 unde ()Xh reprezintă entropia diferenţială de ordin întâi a procesului de intrare, definită conform relaţiei (1 11) Câteva exemple de entropii diferenţiale () Xh, calculate pentru cazul unor surse gaussiene, laplaciene (model de semnal folosit în codarea predictivă a imaginilor) şi, respectiv, cu distribuţia gamma (model folosit în codarea predictivă a semnalului vocal), sunt, [Boi 97]: 21 () (1 22a) () π= XGe2logXhσ 2 221 () (1 22b) () = XLe2logXhσ 2 2 e41 σπ X () logXh (1 22c) = γ 32 λ unde 718 2e = şi 781 1= este constanta lui Euler λ În multe situaţii practice însă ipoteza de proces staţionar i i d a sursei nu este verificată Sursele reale reprezintă în marea lor majoritate surse cu memorie, simbolurile generate fiind dependente statistic Utilizând această dependenţă statistică existentă între simbolurile generate de sursă, pentru acelaşi nivel de distorsiune D, funcţia rată-distorsiune, () Db, corespunzătoare unei surse cu memorie este mai mică decât funcţia () Db corespunzătoare unei surse fără memorie având aceeaşi distribuţie de probabilitate de ordin unu şi doi Acest lucru este o consecinţă directă a inegalităţii (1 9) cu privire la raportul dintre debitul entropic () XH şi entropia ()XHa unei surse X Considerând o sursă cu memorie de ordin M, se poate scrie: ind () DbDb≤, (1 23) () 1M ind unde () Db reprezintă funcţia rată-distorsiune a sursei cu memorie iar () MDb1 reprezintă funcţia rată-distorsiune a unei surse cu aceleaşi caracteristici probabilistice dar fără memorie Importante sunt însă, şi în acest caz, valorile limită inferioare ale acestei funcţii () Db M O asemenea limită, dată în [Sto 88], se scrie sub forma: ind () () ()XhXhDbDb−+≥, (1 24) () M1M ) () () −=xplogxpXh (1 25) unde: ( 2M M21x, ,x,x reprezintă entropia diferenţială de ordin M a procesului de intrare, caracterizat de o densitate de probabilitate compusă de ordin M de forma (1 6) ind Db a unei surse Această limită poate fi evaluată considerând funcţia rată-distorsiune () 1 fără memorie şi ţinând cont de corelaţia dintre valorile sursei prin intermediul diferenţei de entropii ind diferenţiale () () Cu toate acestea evaluarea efectivă este dificilă, atât a funcţiei ()Db XhXh− M1 cât şi a entropiilor diferenţiale ale unor procese staţionare negaussiene Spre deosebire, caracteristicile evaluate în ipoteza de proces sursă gaussian reprezintă expresii limită ale tuturor cazurilor negaussiene Mai mult, aceste caracteristici pot fi evaluate analitic Astfel, de exemplu, să considerăm o sursă staţionară discretă X, gaussiană de medie nulă şi dispersie 2 , cu memorie de ordin M Funcţia densitate de probabilitate compusă de ordin M este de forma: Xσ T11− MxCx1− epx2= (1 26) () M2/12/ () MC2π 15 unde CM reprezintă matricea de covarianţă M-dimensională a sursei Sursa fiind staţionară, această matrice rezultă pozitiv definită Notăm cu M 1i,= , valorile proprii ai acestei matrici Observaţia iλ anterioară este echivalentă cu faptul că valorile λ i sunt strict pozitive şi verifică egalitatea: M 2 =λ (1 27) Mσ Xi⋅ 1i= indind ()DbDb= În vederea evaluării () G1 se poate aplica o transformare ortogonală (ce păstrează norma) în vederea decorelării componentelor sursei Se găseşte că această transformare, care decorelează total eşantioanele sursei, este transformarea Karhunen-Löeve, ce dezvoltă procesul sursă în baza ortogonală a vectorii proprii asociaţi valorilor proprii λ i Fiecare componentă a procesului de ieşire, notată Y, este o variabilă aleatoare cu distribuţie gaussiană şi cu disperise λ i Astfel, funcţia densitate de probabilitate compusă a procesului de ieşire rezultă de forma: y2 Mi − λ21 i () epy (1 28) = ∏ 2/1 () πλ2 ii1 = iar, în urma unor calcule, se obţine [Sto 88]: M λ iind1 () = 2GlogDb biţi/simbol (1 29) = 1iDM2 Limita inferioară a cazului gaussian, ce poate fi obţinută înlocuind (1 29) în (1 24), are o utilitate practică deosebită datorită locului privilegiat pe care-l ocupă acest caz Astfel, este valabilă o ind observaţie similară (1 20), în sensul că orice funcţie () Db, pentru oricare altă sursă i i d 1 ind Db, dată de (1 29), pentru orice negaussiană, va lua valori inferioare sau cel mult egale funcţiei () G valoare a distorsiunii D Aceste limite teoretice calculate sunt utile în cazurile în care se cunosc proprietăţile statistice staţionare ale sursei Sursele reale sunt însă, în general, nestaţionare Aceste cazuri pot fi abordate prin folosirea rezultatelor pentru cele staţionare prin raportarea nestaţionarităţii sursei la aceste caracteristici staţionare (evaluând totodată o măsură, o distanţă, a nestaţionarităţii faţă de cazul staţionar) Acest lucru însă cere proceduri adaptive, ce urmăresc în permanen ţă comportamentul sursei şi pe care-l raportează apoi la anumite cazuri staţionare Se pot trage următoarele concluzii: a) prin folosirea unor sisteme de compresie, care să asigure reprezentarea minimală, din punct de vedere informaţional, a semnalului generat de sursa primară, se urmăreşte asigurarea transmisiei cu o rată de informaţie cât mai apropiată de valoarea limită inferioară, dată de funcţia rată-distorsiune b(D); b) deoarece semnalele reale sunt în general surse de informaţie nestaţionare, performanţe optime (asigurarea transmisiei cu o rată de informaţie cât mai apropiată de valoarea b(D)) se pot obţine cu sisteme de compresie care folosesc tehnici de compresie adaptive Teză de doctorat Capitolul II 16 Capitolul II Cuantizarea Se cunoaşte faptul că majoritatea semnalelor purtătoare de informaţie (semnal de imagine, vocal, audio, seismic etc ) sunt prin natura lor semnale analogice În capitolul precedent a fost indicat faptul că pentru prelucrarea, stocarea sau comunicarea lor eficientă se recurge frecvent la procedee numerice, procedee ce presupun o conversie numerică prealabilă a acestora Este vorba de procesul de conversie analog-numerică a cărui operaţie de bază este reprezentată de cuantizare Am văzut (§1 3), de asemenea, că şi în cazul sistemului PCM, bazat pe doar o simplă cuantizare, se obţine o reducere a cantităţii informaţionale a semnalului analizat Din acest punct de vedere cuantizarea poate fi privită ca fiind cea mai simplă procedură de compresie Astfel, schema bloc a unui sistem de compresie simplu este schiţată ca în figura 2 1 ]n[xˆ x[n] () ˆ=]n[xˆB Cuantizor ]n[x Codare Decodare Q Q(x[n]) Binară Figura 2 1 Schema bloc a unui sistem de compresie/decompresie bazat pe cuantizare şi codare binară Scopul cuantizării este găsirea unei reprezentări alternative ]n[xˆ a semnalului x[n], reprezentare ce să fie definită pe un spaţiu de valori discrete de o dimensiune finită şi, în general, mult mai redusă decât cea a reprezentării sursă Semnalul de prelucrat x[n] din figura 2 1 este, în majoritatea cazurilor, o secvenţă de eşantioane analogice cu valori reale însă care, teoretic, acoperă la ∞şi, de asemenea, este considerată ca fiind cu suport infinit, Zn∈ Însă o plajă de la ∞ − sistemele de compresie practice nu dispun, la un moment dat, de toate aceste valori şi, de asemenea presupun că semnalele de la intrare sunt mărginite (cu valoare maximă finită) Altfel spus, ele operează prin considerarea şi prelucrarea, la un moment dat, doar a unei cantităţi finite de valori ale secvenţei x[n] Din acest motiv vom considera că la intrarea sistemului din figura 2 1 avem de-a face, la un moment de timp n, cu un vector format din ultimele N valori ale secvenţei x[n], notat prin: ! ][ ],[],[1Nnx1nxnx+x −−= [] N! Znnx∈ Dacă eşantioanele sunt cu valori reale, [] x ,, se poate scrie ℜ ∈ ∀ℜ∈ Cuantizorul poate prelucra acest vector în mod secvenţial, eşantion cu eşantion, caz în care vorbim de cuantizare scalară, sau pe blocuri de M eşantioane în mod simultan (NlMlN≠ ⋅= ,), caz în care vom vorbi despre cuantizare vectorială (de ordin M) În acest din urmă caz este utilă folosirea !! unei notaţii echivalente a vectorului de intrarex, de forma [] x, prin N21xxx = considerarea 1lMN= şi notând cu ]1kn[xx+ ,, − = k= Folosind aceste notaţii se poate spune că scopul cuantizorului Q este furnizarea unui vector ˆ!!N şi care aparţine unei mulţimi finite Cℜ ce corespunde vectorului ⊂, de x x [] N21xxxˆ ˆˆ= Nb vectori N dimensionali, subspaţiu ce nu depăşeşte ca dimensiune valoarea 2 , unde b reprezintă rata de bit dorită, exprimată în biţi/eşantion Submulţimea C se numeşte dicţionar de simboluri (codebook) a cuantizorului Q O măsură a erorii cuantizorului poate fi definită pe baza asemănării !! ˆ dintre vectorii x şi respectiv x Definiţia distanţei d dată în (1 12) pentru mărimi scalare poate fi extinsă pentru cazul vectorial Ea are o definiţie similară, şi este dată de: 2 1!""! dxxxxˆˆ,− () (2 1) = N Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 17 Definiţia (2 1) este o expresia pătratică, o măsură energetică a asemănării, ce se mai numeşte şi eroarea medie pătratică de aproximare Distorsiunea D a cuantizorului se poate defini ca fiind chiar această eroare Aceasta este de fapt o măsură a performanţei cuantizorului În cazul cuantizării ! vectorului [] x, ea se poate explicita, conform: N21xxx = 2221 [] ( ++−+−= )()( ) NN2211xxxxxxDˆ ˆˆ− N Scopurile urmărite în construcţia cuantizorului Q sunt: - complexitate scăzută în descrierea cuantizorului - cuantizorul trebuie să poată fi descris cât mai compact astfel încât cantitatea de informaţie suplimentară necesară identificării metodei de cuantizare la decodare, exprimat în biţi, să fie mult mai mică decât produsul bN⋅ ; - complexitate scăzută din punct de vedere al calculelor - materializată prin impunerea cerinţei ca regula de cuantizare să permită o implementare rapidă; - distorsiune scăzută - în mod ideal distorsiunea introdusă de cuantizorul proiectat ar trebui să fie cel puţin la fel de redusă ca şi cea introdusă de un alt cuantizor de aceeaşi complexitate şi ce oferă aceeaşi rată de bit în cazul aceloraşi semnale (să ofere acelaşi factor de compresie) Acest din urmă deziderat poate fi evaluat din prisma compromisului dintre distorsiunea D oferită de sistem şi rata de bit b ce-l caracterizează Limita teoretică a acestui compromis a fost prezentată în §1 7 prin definirea funcţiilor distorsiune-rată D(b) şi rată-distorsiune b(D) 2 1 Cuantizarea scalară Cuantizarea scalară este metoda de cuantizare preferată în majoritatea sistemelor de compresie deoarece oferă simplitate în implementare Ea prelucrează secvenţa de intrare eşantion cu eşantion Notând cu L dimensiunea spaţiu secundar, cel al valorilor ]n[xˆ, rezultă un număr mediu de Llogb=simboluri binare necesare codificării (fără pierdere) a unui element al acestui spaţiu 2 Dezavantajul metodei constă în faptul că ea oferă, de obicei, performanţe mai scăzute decât cea vectorială din punct de vedere al distorsiunilor oferite la aceeaşi rată de bit Formal, a construi un cuantizor scalar cu L nivele înseamnă: - găsirea unui subinterval [a,b] al axei reale astfel încât toate valorile xk să fie incluse în el, ; ∈ [] N 1k,b,ax= k∀ - găsirea unei partiţii a lui [a,b] în L subintervale I1,I2, …, IL ; ∈ - găsirea nivelelor de cuantizare y1,y2, …, yL, astfel încât L, ,2,1j,Iy= jj∀ Odată ce mărimile L,a,b,I1,I2, …, IL ,y1,y2, …, yL au fost stabilite cuantizorul Q cu L nivele a fost determinat în mod univoc Cuantizorul acceptă la intrare orice număr real x din intervalul [a,b] Ieşirea Q(x) a cuantizorului (răspunsul la excitaţia x) este un nivel de cuantizare yj asociat b,aI⊂ subintervalului [] j ce conţine numărul x Având la dispoziţie un număr de 2L+3 parametri ai cuantizorului există, din punct de vedere teoretic, un număr foarte mare de modalităţi posibile de implementare a lui Ca şi măsură de performanţă a unui cuantizor poate fi aleasă eroarea medie pătratică de aproximare (distorsiunea cuantizorului) definită de relaţia (2 1) Codarea binară realizată de blocul de codare binară ce urmează cuantizorului din figura 2 1 poate fi caracterizată printr-o funcţională bijectivă definită pe mulţimea nivelelor de cuantizare {}{} y şi cu valori în mulţimea cuvintelor de cod, c (o mulţime cu L elemente) L, ,2,1jj=L, ,2,1jj= Acest procesul de asociere, de “codare” a unui element yi printr-un cuvânt de cod ci, poartă Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 18 denumirea de alocare de bit În funcţie de modul în care acest bloc realizează alocarea de bit cuantizoarele pot fi: a) cuantizoare cu rată de bit fixă, b) cuantizoare cu rată de bit variabilă a) Cuantizarea cu rată de bit fixă presupune ca fiecare eşantion de intrare să fie reprezentat pe un număr constant de biţi, b=const În acest caz mulţimea cuvintelor de cod se găseşte ca fiind mulţimea reprezentărilor binare, cu un număr b de biţi, ale numerelor 1,2,…,L, unde trebuie să avem b L = 2 În acest caz b va reprezenta chiar rata de bit a cuantizorului (în biţi/eşantion) Astfel se poate {} L, ,2,1y:B→ scrie: {} Procedura este simplă, constând dintr-o procedură de indexare a L, ,2,1jj= nivelelor de cuantizare Este procedura utilizată, cu precădere, în cazul sistemelor de cuantizare uniformă Dezavantajul constă în faptul că numărul b trebuie să fie neapărat un număr întreg, condiţie ce reprezintă o restricţie suplimentară în cazul proiectării cuantizoarelor optimale b) Cuantizarea cu rată de bit variabilă permite o codare mai flexibilă a eşantioanelor cuantizate Astfel nu mai este obligatoriu ca orice valoare să fie codată cu acelaşi număr de biţi Unele eşantioane vor putea avea alocat un număr mai mare de biţi decât altele Evident, având impusă o rată medie de b biţi/eşantion unele coduri ci vor fi mai lungi decât b iar altele vor fi mai scurte decât această rată Metoda are avantajul major că permite obţinerea unor rate b ce nu sunt neapărat numere întregi Un exemplu de construcţie a unui cuantizor cu rată de bit variabilă folosind k cuantizoare uniforme este: - împărţirea celor N eşantioane de la intrare în k mulţimi,{} P , cu dimensiunile k, ,2,1ii= n1,n2,…,nk astfel încât n1+n2+…+nk=N, - căutarea a k numere b1,b2,…,bk astfel încât (n1/N)b1+( n2/N)b2+…+( nk/N)bk=b, - construirea unui cuantizor scalar uniform cu rata bi pentru fiecare mulţime Pi,i=1,2,…,k De fapt, orice algoritm de compresie fără pierdere, (§1 2), poate fi privit ca o procedură de alocare de bit cu rată de bit variabilă * Un cuantizor Q cu L nivele de cuantizare se numeşte cuantizor optimal pentru un vector de ! intrare x dacă: NN   22* () ()() ()(2 2) −=− ∑∑  iiiixQxminxQx  1i1iQ ==  unde minimul se consideră pe mulţimea tuturor cuantizoarelor cu L nivele de cuantizare Având în vedere numărul mare de parametri al cuantizorului precum şi restricţia impusă de ! cunoaşterea vectorului de intrare x această problemă de optimizare nu este deloc uşoară, pe de o parte, iar pe de altă parte, construirea unui cuantizor optimal pentru un anumit vector de intrare nu garantează această optimalitate şi pentru alţi vectori de intrare Din acest motiv construcţia cuantizoarelor este bazată, în general, pe anumite ipoteze privind natura semnalului de intrare Intrarea este frecvent modelată ca o realizare particulară a unui proces aleator staţionar cu parametri statistici cunoscuţi sau estimaţi (pe baza semnalului curent de la intrare) În unele din aceste cazuri este posibilă deducerea expresiilor analitice ale unor măsuri de performanţă pentru categorii diverse de cuantizoare Ipotezele cele mai frecvente, amintite şi în §1 2, presupun procese i i d la intrare cu valori ale realizărilor distribuite conform unor legi de probabilitate cunoscute (cu distribuţie uniformă, laplaciană sau gaussiană) Bineînţeles, aceste ipoteze permit evaluarea performanţelor doar pentru aceste tipuri de surse, ele nu sunt aplicabile cu stricteţe dacă una sau mai multe dintre aceste ipoteze nu sunt verificate (de exemplu procesul de Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 19 intrare este staţionar dar nu este independent sau este nestaţionar) Se procedează, frecvent, şi la introducerea unor ipoteze simplificatoare atât privind partiţia intervalului de valori [a,b] cât şi nivelele de cuantizare y1,y2, …, yL 2 1 1 Modelarea statistică a intrării şi a zgomotului de cuantizare În cele ce urmează vom considera că semnalul de intrare x[n] este o realizare particulară a unui proces aleator staţionar şi ergodic X[n] caracterizat printr-o funcţie densitate de probabilitate notată cu () xp şi cu eşantioanele decorelate, deci presupunem o sursă de semnal staţionară şi fără X 2 memorie Presupunem, de asemenea, că procesul de intrare este de medie nulă şi vom nota cu σ X puterea finită a acestuia Rezultă, în mod corespunzător, că avem la intrarea sistemului un vector ! x ce este o realizare particulară a unui vector aleator [] N21xxx = X, format din N variabile aleatoare ce aparţin acestui proces X[n] [] N21XXX = Măsura (2 1) a distorsiunii introduse de cuantizor, se exprimă ca: NN     2121     ()()() −= −= ∑∑ iiiixˆXExQXED (2 3) NN     1i1i ==     unde operatorul E este cel de mediere statistică Cu toate că este aplicabilă, măsura (2 3) nu prea e utilizată deoarece ea este redundantă (presupune medierea temporală a N componente succesive iar procesul X a fost presupus staţionar - deci cele N componente ale sumei de mai sus vor avea comportamente similare din punct de vedere statistic) Frecvent se lucrează cu următoarele patru mărimi în evaluarea performanţelor sistemelor de cuantizare: i) Eroarea medie pătratică, definită, conform (1 15), prin: ∞ 22 () ()()()()() dxxpxQxxQXED⋅ (2 4) −=−= X⋅ ∫ ∞− Ea este o măsură obiectivă a distorsiunii introduse de cuantizor Observaţie: măsura (2 1) poate fi privită ca un estimator a măsurii (2 4) pentru cazul unei distribuţii uniforme a intrării ii) Raportul semnal pe zgomot de cuantizare, SQNR (Signal to Quantization Noise Ratio) definit prin: 22 {} XEσ X SQNR= (2 5) = DD sau, exprimat în decibeli: 22 {} XEσ X log10log10dBSQNR= [](2 6) 1010= DD iii) Entropia semnalului de ieşire: L (){} () ()() [biţi/eşantion] (2 7) ⋅−= iiyplogypXQH∑ 1i= unde s-a notat cu () probabilitatea de apariţie a valorii cuantizate yi, ce este egală cu iyp probabilitatea ca variabila aleatoare X să ia o valoare Ix∈ i, cea ce se poate calcula cu: Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 20 () () ⋅= Xidxxpyp(2 8) ∫ ∈ iIx Această entropie reprezintă valoarea limită pentru rata medie de informaţie cu care se poate transmite un eşantion cuantizat fără distorsiuni suplimentare iv) Evaluări subiective prin teste de inteligibilitate, teste de vizibilitate etc , identifică zgomotul de cuantizare, şi este un proces aleator Cantitatea () xQX −=ε Distorsiunea D definită în (2 4) nu este altceva decât puterea acestui proces Expresiile (2 4), (2 5) ne indică faptul că evaluarea obiectivă a performanţelor cuantizorului (de fapt a întregului sistem de compresie) presupune o modelare cât mai fidelă a acestui proces al erorii Notând cu () funcţia up ε densitate de probabilitate a acestui proces, eroarea medie pătratică de aproximare a cuantizorului (deci, distorsiunea D definită pe baza distanţei (2 1)) se poate scrie: ∞ 222 () () duupuED⋅ (2 9) ⋅=σ=ε= εε ∫ ∞− o expresie greu de evaluat deoarece nu se cunoaşte forma explicită a lui () Expresia (2 9) poate up ε fi rescrisă: L 22 () duupuD(2 10) ⋅=σ= ∑ εε ∫ 1iIyu = ∈+ ii Ţinând cont de transformarea funcţională (), se poate face schimbarea de variabilă xQX −=ε u=x-yi: L 22 () ()(2 11) ⋅−−=σ= ∑ iiduyxpyxD εε ∫ 1iIx = ∈ i xpyxpIx= Cum însă pentru () , (2 12) ⇒∈ () Xii− ε L 22 () dxxpyxD(2 13) Rezultă:() ⋅−=σ= ∑ ε ∫ Xi 1iIx = ∈ i Expresia (2 13) indică faptul că distorsiunea D a unui cuantizor Q poate fi evaluată cunoscând parametrii cuantizorului (parametrii L,a,b,I1,I2, …, IL ,y1,y2, …, yL) şi legea de probabilitate a sursei () xp Această expresie poate sta la baza proiectării cuantizoarelor optimale X caz în care însă, pentru anumite legi () xp, volumul de calcul implicat poate fi prohibitiv Din X acest motiv este utilă introducerea unor ipoteze suplimentare privind atât natura procesului eroare cât şi parametrii cuantizorului Astfel, de exemplu, expresia (2 13) se simplifică considerabil dacă se presupune că numărul de nivele L al cuantizorului este “suficient de mare” iar nivele de cuantizare yi sunt foarte apropiate de punctele de mijloc ale subintervalelor de cuantizare Ii, i=1,2,…,L Această ipoteză, denumită “ipoteza de rezoluţie fină“ sau de “rată de bit mare”, se regăseşte în numeroase lucrări de referin ţă Se remarcă lucrarea lui Bennett, [Ben 48], sau cele ale lui Widrow, [Wid 56], [Wid 60] Este foarte util, de asemenea, ca procesul de Zgomot de cuantizare să fi modelat ca un proces de însumare a cuantizare εdouă componente aleatoare staţionare, conform Proces deProces figurii 2 2 intrarede ieşire + Însă, spre deosebire de modelul semnal+Y=X+ε X zgomot obişnuit din teoria comunicaţiilor, în acest Figura 2 2 Modelul statistic aditiv al de cuantizaremodel zgomotul nu este independent de procesul deprocesului Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 21 intrare X Această independenţă este însă un deziderat major ce ar permite o abordare mult simplificată a procesului de cuantizare Benett, [Ben 48], a arătat că în anumite condiţii acest lucru poate fi asigurat Una dintre aceste condiţii o reprezintă ipoteza de rezoluţie fină mai sus amintită El arată că, presupunând o funcţie densitate de probabilitate ()continuă şi un număr L de nivele de cuantizare suficient de xp X mare (astfel încât într-un funcţia () să fie aproximativ constantă într-un subinterval de xp X cuantizare Ii), iar nivele de cuantizare yi sunt centrele de greutate ale subintervalelor de cuantizare, zgomotul de cuantizare se va comporta similar unui zgomot alb (proces i i d) şi ce este independent de procesul de intrare dacă intrarea este slab corelată sau necorelată În modelarea zgomotului de cuantizare ca o sursă de zgomot aditiv este foarte convenabilă utilizarea ipotezei conform căreia această componentă are o distribuţie uniformă şi este independentă de procesul de intrare X Această ipoteză a fost folosită de Widrow [Wid 56], pentru cazul unui cuantizor uniform cu un număr foarte mare de nivele de cuantizare Mai mult, în [Wid 60] se deduce o formulă exactă a funcţiei caracteristice a procesului de ieşire Y , arătând că dacă procesul intrare X este “de bandă limitată” atunci momentele statistice ale procesului de ieşire vor putea fi calculate pe baza celor ale procesului de intrare iar zgomotul aditiv va fi un proces i i d (zgomot alb), independent de procesul de intrare X, şi cu o distribuţie uniformă Această condiţie de bandă limitată impusă funcţiei caracteristice a procesului de intrare este foarte restrictivă, neverificându-se în practică Acest fapt însă a generat o nouă problemă şi anume, dacă există vreo procedură de prelucrare prin care să se poată remodela procesul de eroare astfel încât aceasta să rezulte cu distribuţie uniformă, indiferent de legea de probabilitate a procesului de intrare Soluţia găsită poartă denumirea de “dithering”, procedură ce presupune generarea unui proces aleator de referin ţă ε r, un proces i i d cu distribuţie uniformă, şi cuantizarea realizărilor procesului sumă + Utilizând un cuantizor uniform cu verificarea ipotezei de rezoluţie fină, rezultă o eroare de rXε cu o distribuţie uniformă [Ger 78], [Sto 88], [Goy 98], [Kir 98], [Gra 98] Metoda cuantizare ε prezintă însă dezavantajul creşterii puterii erorii de reconstrucţie cu puterea procesului de referinţă ε r 2 Având în vedere faptul că, în general, chiar şi pentru o putere σ X finită a procesului X probabilitate ca el să ia o valoare x, cu x foarte mare (ce tinde la infinit), este diferită de zero, vor apărea probleme în dimensionarea unui cuantizor Q optimal cu un număr L finit (impus prin proiectare - de exemplu din condiţia de rată de bit constantă) de nivele de cuantizare În aceste cazuri zgomotul de cuantizare va avea două componente Prima componentă este dată de acele valori () pentru care [] Această componentă se numeşte zgomot granular A doua xQx −b,ax∈ şi se numeşte zgomot în exces Este util să se modeleze componentă este dată de valorile [] b,ax∉ zgomotul de cuantizare, în mod artificial, ca fiind o sumă a celor două componente, zgomotul granular plus zgomotul în exces Zgomotul granular are o valoare maximă limitată de lungimea maximă a intervalelor L, ,2,1j,I=Valoarea zgomotului în exces (zgomot de depăşire) este j (teoretic) nelimitată Din acest motiv, în dimensionările practice ale cuantizoarelor se aleg valorile limită ale intervalului de interes [a,b] astfel încât el să cuprindă cu probabilitate aproape de unu toate valorile posibile Astfel, conform măsurii (2 4), distorsiunea cauzată de cele câteva valori ce nu se vor încadra în acest interval va avea o energie redusă, neglijabilă faţă de energia componentei de zgomot granular În cele ce urmează vom presupune întotdeauna această condiţie satisfăcută, caz în care prin termenul de zgomot de cuantizare vom înţelege implicit zgomotul granular Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 22 2 1 2 Cuantizarea scalară uniformă Este cea mai simplă metodă de cuantizare Se asociază de obicei cu o procedură de codare de bit cu rată de bit constantă, b Procesul de intrare X fiind presupus de medie nulă, intervalul de b interes [a,b] este de obicei unul simetric, [-A,A] Având impusă rata de bit dorită, b, se alege L=2, iar partiţia I1,I2, …,IL se obţine prin împărţirea intervalului [-A,A] în L subintervale de lungimi egale A2 y În cazul în care nu se cunoaşte Rămâne să fie stabilite nivelele de cuantizare {} =∆ bL, ,2,1jj= 2 distribuţia procesului de intrare aceste nivele sunt considerate ca fiind punctele de mijloc ale subintervalelor de lungimi egale Ij, j=1…L Se poate arăta uşor că, de fapt, acest cuantizor este optimal doar dacă procesul aleator de intrare X este staţionar cu distribuţie uniformă pe intervalul [-A,A], [Ger 78] În acest caz procesul ∆∆  aleator ε va fi unul cu distribuţie uniformă pe intervalul− Funcţia densitate de , ε =X-Q(x),,  22  probabilitate a procesului εeste: [] ,u11 αα−∈  ()() () u,uup(2 14) =χχ⋅=  ],[ αα−∆∆ε ,u0],[ αα−∉ [] − ∆  22 , ce defineşte puterea zgomotului de cuantizare, este: În acest caz dispersia procesului ε 222  ∆ b222AA21−  {} (2 15) 2E⋅ =⋅==ε=σ  bε 31212 2  Ţinând cont de faptul că procesul de intrare s-a presupus ca fiind cu distribuţie uniformă pe intervalul [-A,A] , puterea acesteia este: 2A A1 222 duuXE= (2 16) {} ==σ X∫ 3A2 A− rezultând expresia: b222− (2 17) ⋅σ=σ X2ε 22 b2Xσb2Xσ b02,62log10log10dBSQNR⋅ sau, în decibeli, [] Rezultă: ,2SQNR= ≈= == 210210 σσ εε Rezultatul indică faptul că un cuantizor scalar uniform, în cazul unui proces aleator de intrare cu o distribuţie uniformă, se caracterizează printr-o senzitivitate a raportului semnal pe zgomot de cuantizare de aproximativ 6 dB pe bit Însă, această ipoteză de distribuţie uniformă a procesului X este o ipoteză foarte rar verificată în practică După cum s-a văzut în §2 1 1 problema modelării zgomotului de cuantizare în ipoteza unui proces aleator i i d X, de medie nulă, caracterizat printr-o funcţie densitate de probabilitate oarecare, notată () xp, nu mai este la fel de simplă O primă observaţie privind componenta de zgomot în X exces este că o valoareσ asigură reducerea (minimizarea) ei în majoritatea ipotezelor curente = 4AX făcute cu privire la funcţia densitate de probabilitate () xp Admiţând, de asemenea, că ipoteza de X “rezoluţie fină” este verificată, distribuţia zgomotului de cuantizare poate fi considerată ca fiind tot cea dată de ec (2 14), deci puterea lui se poate calcula tot conform ec (2 15) în care se introduce ipoteza σ = 4AX : 2222 σ  ∆ − b2Xb22216AA21−   (2 18) {} 22E⋅ ⋅==ε=σ =⋅=   bε 331212 2  2 - puterea procesului aleator X este σ X; Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 23 - raportul SQNR este : 2 b2X3σ 2SQNR= (2 19) = 2 16 σ ε 2 3σ X 3,7b02,6log10b2log20log10dBSQNR− în decibeli [](2 20) +⋅−== 1010≈ 162 σ ε A Raportul poartă denumirea de factor de încărcare Se observă că orice modificare a acestuia nu Xσ schimbă altceva decât termenul liber din relaţia (2 20), (calculat pentru valoarea 4 a acestuia), în sensul creşterii sau descreşterii Descreştere obţinem pentru valori mai mici ale acestui raport caz în care însă, scapă de sub control puterea zgomotului în exces, componentă necuprinsă în ec (2 18) De asemenea rezultatul (2 19) pune în evidenţă o diferenţă de 7 3 decibeli faţă de limita teoretică obtenabilă dată de relaţia (1 19) 2 1 3 Cuantizarea scalară neuniformă Concluzia paragrafului precedent indică faptul că nu cuantizarea scalară uniformă reprezintă calea efectivă de obţinere a unor bune performanţe Pentru un număr L de nivele de cuantizare fixat, ţinând cont de forma funcţiei densitate de probabilitate a intrării, repartizarea neuniformă a nivelelor de decizie, deci considerarea unor subintervale I1,I2, …, IL cu lungimi diferite, poate duce la un zgomot de cuantizare de o putere mai redusă şi/sau la senzitivitate mai redusă a distorsiunilor în raport cu legea de probabilitate a sursei [Ben 48], [Ger 78], [Sto 88], [Goy 98] Astfel, alocându-se paşi de cuantizare de dimensiune mare pentru valori ale semnalului cu probabilitate mică de apariţie şi paşi de cuantizare de valoare mică pentru valorile semnalului cu probabilitate mare se va obţine o distorsiune D mai mică şi un raport SQNR mai mare decât valorile optime corespunzătoare din cazul cuantizorului uniform date de (2 20) , expresia Notând cu ti,i=0,1,2,…,L capetele intervalelor Ii, i=1,2,…,L, deci [] = i1iit,tI− distorsiunii D, definită prin ec (2 4) şi dezvoltată în (2 13), devine: LtLtii 22 ()( ) () ( ) () dxxpyxdxxpxQxD(2 21) ⋅−=⋅−= ∑∑ ∫∫ XiX 1it1it == 1i1i −− Problema dimensionării unui cuantizor Q care să ofere o distorsiune D minimă sau aproape de acest minim cunoscând statisticile sursei şi având impusă o rată de bit maximă dorită b nu este deloc uşoară Am văzut în §2 1 1 că expresia (2 21) a distorsiunii poate fi simplificată introducând anumite ipoteze simplificatoare care însă nu trebuie să fie prea restrictive Astfel, impunând verificarea ipotezei de “rezoluţie fină” sau “cu rată de bit înaltă” (ce presupune ca numărul de nivele L să fie suficient de mare astfel încât funcţia densitate de probabilitate pX(x) a sursei pe un interval [],să poată fi aproximată cu o constantă), se va putea scrie, L, ,2,1i,t,t= i1i− (2 22) L, ,2,1i,t,txpentru,ypxp= ≈ () ( ) [] i1iiXX∈ − Notând cu tt− lungimea intervalului de decizie Ii, se poate scrie: =∆ 1iii− LtLtii 22 ()() ()() −⋅=⋅−= ∑∑ iiXXidxyxypdxxpyxD(2 23) ∫∫ 1it1it == 1i1i −− Termenul de sub integrală este componenta de zgomot datorată valorilor x din intervalul Ii , ce sunt cuantizate în punctul yi, componentă modelată în continuare conform ipotezelor din §2 1 1 (nivelele Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 24 de cuantizare yi sunt foarte apropiate de punctele de mijloc ale subintervalelor de cuantizare Ii), se va putea scrie: ∆ iit2/3 ∆ i22 () =≅− idxxdxyx(2 24) ∫∫ 12 ∆− 1iit2/ − Înlocuind (2 19) în (2 18) se obţine: LLti 321 ∆⋅=−⋅= () ( )() ∑∑ iiXiiXypdxyxypD(2 25) ∫ 1i1it12 == 1i − tt+ 1ii− evident, cu y≈ i 2 Se observă, că formula (2 25) poate fi privită ca o generalizare a ec (2 15) stabilită pentru 1A2 yp= cuantizorul scalar uniform Înlocuind ()verificarea rezultatului este , ∆=∆ iX şi i= A2L imediată Se poate arăta că pentru anumite legi de probabilitate distorsiunea D atât conform (2 21) cât şi conform (2 25) admite un minim unic, ce corespunde cuantizorului optimal [Ben48], [Ger 78], [Sto 88] O aproximare diferită a problematicii cuantizorului neuniform dar care oferă rezultate similare în cea ce priveşte cuantizorul optimal a fost făcută de Bennett în [Ben 48] Conform acestei tehnici, cuantizarea uniformă poate fi echivalată cu transformarea semnalului prin intermediul unei funcţii neliniare F(x), care are ca efect compandarea semnalului generat de sursă, compandorul fiind urmat de un cuantizor uniform Această situaţie se prezintă în figura 2 3 ]n[y= ˆ ]n[xˆ ]n[x]n[xF ]n[y Compandor Cuantizor() Expandor -1 F(x) uniform F(x) Figura 2 3 Modelarea procesului de cuantizare neuniformă -1 Asupra semnalului, obţinut la ieşirea cuantizorului uniform, se aplică funcţia inversă F(x), echivalentă cu expandarea semnalului, obţinându-se astfel aproximarea semnalului de intrare Funcţia F(x), al cărei grafic reprezintă caracteristica de compandare, trebuie să fie o funcţie bijectivă, continuă şi derivabilă, care să satisfacă condiţiile: ,AxFA fiind valoarea maximă a semnalului, este mărginită, () ± [] • -1 Restricţia funcţiilor F(x) la clasa funcţiilor bijective asigură existenţa funcţiei inverse F(x) În aceste condiţii compandarea urmată de cuantizarea uniformă este echivalentă cu un cuantizor ale cărui niveluri de decizie ti şi niveluri de ieşire yi sunt determinate de panta caracteristicii de compandare, deci de derivata funcţiei F(x) printr-o Pentru un număr mare de nivele L, funcţia F(x) se poate aproxima în intervalul [] i1it,t− dreaptă de pantă F’(yi), () ( ) 1iitFtF− − (2 26) () iy'F= i∆ , se obţine: Notând () () iiygy'F= Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 25 A2 (2 27) ∆ i= () iygL⋅ Distorsiunea medie D rezultă în acest caz: A2 () XxpA dxD(2 28) = ∫ 2 L3 () [] Axg − Problema optimizării, deci a găsirii cuantizorului neuniform ce minimizează distorsiunea medie D dată de ecuaţia de mai sus revine la găsirea acelei funcţii F(x) care, pentru o lege de probabilitate dată, asigură această minimizare 2 1 4 Cuantizare scalară optimală Cuantizarea scalară uniformă este optimală doar pentru cazul unei distribuţii uniforme a procesului aleator de intrare X Căutăm, în continuare, cuantizorul optim pentru cazul în care funcţia densitate de probabilitate pX(x) a procesului staţionar X este o funcţie oarecare cunoscută dar care nu este proporţională cu funcţia indicatoare a intervalului [-A,A], (deci X nu este cu distribuţie uniformă) 1 ,xxpχ (2 29) ⋅≠ ()() ]A,A[X− A2 Căutarea cuantizorului optim are la bază un criteriu de optimalitate Acest criteriu este, în general, minimizarea erorii medii pătratice de aproximare Impunând numărul de nivele al cuantizorului, L, precum şi domeniul cuantizorului (de exemplu A=4σ), folosind expresia (2 21) a erorii medii pătratice D, problema optimizării revine la găsirea valorilor nivelelor de decizie ti,i=0,1,2,…,L precum şi a celor de cuantizare yi,i=1,2,…,L astfel încât să obţinem o valoare minimă a distorsiunii Soluţionarea problemei se poate face prin anularea derivatelor parţiale ale distorsiunii D în raport cu variabilele ti şi yi mai sus menţionate Astfel impunând condiţiile: ∂ (2 30) 1L, ,1i,0D− == t∂ i ecuaţiei (2 21), rezultă:  i1itt + 22∂   ( ) () ( ) () 0dxxpyxdxxpyx= (2 31) −+⋅− + ∫∫ X1iXi⋅ t ∂ i 1iitt −  verificată de: 22 ( ) () ( ) () 0tpyttpyt= (2 32) −− + iX1iiiXii− de unde rezultă: yy+ 1ii+ 1L, ,2,1i,t− (2 33) = i= 2 Condiţia (2 33) reprezintă o primă condiţie necesară ce trebuie să fie verificată de cuantizorul optimal Ea se numeşte “condiţia celui mai apropiat vecin” deoarece impune ca pragul de decizie să se găsească la jumătate dintre două nivele de cuantizare succesive Impunând condiţiile: ∂ (2 34) L, ,1i,0D= = y∂ i ecuaţiei (2 21), rezultă: Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 26  it 2∂   0dxxpyx= ⋅− ()() (2 35) Xi∫ y ∂ i 1it −  echivalentă cu:  iitt   0dxxpy2dxxpx2= ⋅+⋅⋅− () () (2 36) XiX∫∫   − 1iit1t −  de unde rezultă: it () dxxpx⋅ ⋅ X∫ 1it− L, ,2,1i,y= (2 37) i= it () dxxp⋅ X∫ 1it− Condiţia (2 37) reprezintă o a două condiţie necesară ce trebuie să fie verificată de un cuantizor optimal Ea se numeşte “condiţia de centroid” deoarece impune ca nivelele de decizie yi să fie centrele de greutate ale valorilor x cuantizate în intervalul Ii, i=1,2,…,L Cele două condiţii (2 33) şi (2 37) nu oferă în mod explicit valorile optime datorită faptului că ele exprimă pragul de decizie tj în funcţie de nivelele de cuantizare yj şi vice-versa, yj în funcţie de tj Mai mult, se poate arătă că cele două condiţii enunţate sunt doar condiţii necesare, dar nu şi suficiente, pentru un cuanatizor optimal Astfel, verificarea celor două condiţii restrânge doar clasa cuantizoarelor posibile candidate la calitatea de cuantizor optimal Aceste cuantizoare sunt numite, în mod obişnuit, cuantizoare Lloyd-Max [Mor 95] Se poate arăta [Ben 48], [Ger 78], [Sto 88], că dacă: 2 d ()(){} x,0xplog∀ (2 38) (2 44) X1= ∫ 0 * unde C1 trebuie să îndeplinească condiţia () AAF= Introducând expresia pantei (2 43) în (2 28), rezultă valoarea medie minimă a distorsiunii datorate zgomotului granular în cuantizarea neuniformă a unui semnal de distribuţie () xp şi X 2 dispersie σ, X Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 28 3 A2   3/1Xσ (2 45) ()() =  X0dxxpD 2∫  AL12 −   2 unde cu () s-a notat funcţia densitate de probabilitate () normată cu σ xpxp X0XX Se observă asemănarea dintre cele două rezultate, (2 39) în ipoteza de “înaltă rezoluţie” şi (2 45) din modelarea lui Bennett Funcţia de compandare optimă rezultă de forma [Ger 78]: mx− () e1A− 0x,xF> = () mA− e1− şi cu ()(2 46) 0x,xFxF (2 49) ⋅+= () A unde c este o constantă Rezultatul (2 49) arată că o compandare logaritmică ar trebui să asigure performanţe robuste ale cuantizorului Bineînţeles, expresia (2 48) neglijează componenta zgomotului în exces, astfel încât acest raport SQNR nu se va menţine constant dacă puterea semnalului de intrare creşte mult De asemenea, curba (2 49) nu este fizic realizabilă deoarece valoarea sa în origine F(0) nu este finită Din acest motiv ea este frecvent aproximată în aplicaţiile practice Astfel, în cuantizarea semnalului vocal se lucrează des cu curba de compandare denumită “legea-µ de compandare” : () A/x1logµ+ (2 50) () 0x,AxF>= () 1logµ+ sau, alternativa “legea-A de compandare”: Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 29 x α  /Ax0 α≤≤   log1 α+ xF(2 51) = ()  () A/xlogAA α+  Ax/A ≤≤α  log1 α+  În practică aceste legi de compandare sunt implementate prin funcţii obţinute prin aproximarea pe porţiuni a lor, permiţând dezvoltarea unor algoritmi rapizi 2 2 Cuantizarea vectorială Cuantizarea vectorială este procedura de cuantizare prin care se asigură prelucrarea simultană a unui grup de eşantioane ale intrării x[n] Folosind notaţia făcută la începutul acestui capitol, să considerăm că se dispune, la un moment dat, la intrarea cuantizorului Q de un vector de !! ˆ valori reale x Scopul cuantizorului Q este furnizarea unui vector [] x ce N21xxxˆ ˆˆ= !! N Cℜ corespunde vectorului x şi care aparţine unei mulţimi de {} c, de vectori N ⊂= L21ii= , ,, Nb dimensionali, subspaţiu ce nu depăşeşte ca dimensiune valoarea L=2 , unde b reprezintă rata de bit dorită exprimată în biţi/eşantion Sub-mulţimea C se numeşte dicţionar de coduri (codebook) a cuantizorului Q Distorsiunea cuantizorului poate fi calculată conform distanţei (2 1) Construcţia cuantizorului poate fi bazată, similar cuantizoarelor scalare, pe compromisul dintre rata de bit dorită b şi distorsiunea obţinută D Printre avantajele utilizării cuantizoarelor vectoriale în comparaţie cu performanţele obtenabile cu cele scalare, se numără: - distorsiunea obţinută la aceeaşi rată de bit poate fi mai redusă, - decodare mai rapidă, - se implementează cu succes şi pentru rate de bit reduse Printre dezavantajele lor se numără: - complexitate mare (mai ales a codorului), - codarea poate fi o procedură lentă, - apariţia efectului de margine între blocurile de date succesive O abordare a construcţiei cuantizoarelor vectoriale se poate face trecând la generalizarea Ni este partiţionat în L regiuni P, denumite cuantizorului scalar prezentat în §2 1 Astfel spaţiul ℜ !!! ˆ celule, astfel încât fiecare celulă să includă toţi vectorii x cuantizaţi în cx= i Se poate scrie, deci: Ni!!" QP= {} () (2 52) cxx ℜ∈= L21ii, ,,= În ipoteza unui semnal de intrare x[n] ce este o realizare particulară a unui proces aleator staţionar şi ergodic X[n] caracterizat printr-o funcţie densitate de probabilitate compusă de ordin N ! ( ) notată cu () x, rezultă, în mod corespunzător, că avem la intrarea sistemului N21XXxxxpp, ,,= ! un vector [] ce este o realizare particulară a unui vector aleator x N21xxx = ! X, format din N variabile aleatoare ce aparţin procesului X[n] [] N21XXX = Folosind distanţa euclidiană: 2 1!""! dxxxxˆˆ,− () = N o măsură a distorsiunii D poate fi definită conform: Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 30 !!!!!! ˆˆ dpddEDxxxxxX,,(2 53) (){}() ⋅⋅== () X ∫ N ℜ Expresia (2 53) admite scrierea: L! 2!!!!!ˆ (){} ()() ,,(2 54) ⋅⋅=σ== ∑ XidpddEDxxcxxX ε ∫ i = P1i 2 2 1 Cuantizarea vectorială optimală Construcţia cuantizorului vectorial optimal constă în găsirea acelui cunatizor Q de ordin N N!Nb Cℜ cu un dicţionar de coduri {} pentru care distorsiunea de dimensiune c L=2 ⊂= L21ii= , ,, (2 54) are valoare minimă Problema este foarte dificilă, chiar imposibil de rezolvat în timp rezonabil datorită varietăţii foarte mari a dicţionarelor C posibile Ea nu se simplifică mult prea mult nici dacă statisticile intrării sunt cunoscute cel puţin până la ordinul N Din acest motiv, de cele mai multe ori, în rezolvarea problemei de mai sus se caută soluţii local optimale sau se introduc ipoteze suplimentare (de exemplu ipoteze privind structura cuantizorului, algoritmul de calcul al distanţelor, alocarea de bit etc ) În mod similar cazului cuantizării scalare, nu este posibilă determinarea simultană atât a i! , dar rămân celei mai bune partiţii P,i=1,2,…,L cât şi a punctelor de reproducere {} c L21ii, ,,= valabile, [Mor 95], cele două condiţii necesare optimalităţii Astfel: ! C= i) fiind dat un dicţionar {}, partiţia cea mai bună este acea care verifică, c L21ii, ,,= Ni!!!!" () {} () (2 55) cxcxx ∀≤ℜ∈= jiL21jddP, ,,,,,= L21i, ,,= i ce defineşte “regula celui mai apropiat vecin” Partiţia P,i=1,2,…,L în acest caz poartă denumirea de partiţie Voronoi i! sunt obţinute ii) fiind dată o partiţie P,i=1,2,…,L , cele mai bune reprezentante {} c L21ii, ,,= pe baza “condiţiei de centroid”: !!! dp⋅ xxx () ∫ X⋅ i! P L21i, ,,,= c(2 56) i= !! dp⋅ xx () X∫ i P Linde, Buzo şi Gray au dezvoltat un algoritm similar algoritmului Lloyd-Max de construcţie a cuantizoarelor scalare optimale, pentru acest caz multidimensional, denumit algoritmul LBG, [Mor 95], [Gra 98] Principiul algoritmului Lloyd-Max a fost păstrat, astfel: - se iniţializează dicţionarul C, - se aplică în mod succesiv (alternativ) cele două reguli date de ecuaţiile (2 55), (2 56) În acest caz însă rămâne o problemă dificilă iniţializarea dicţionarului C, de ale cărui proprietăţi depinde foarte mult convergenţa algoritmului LBG Performanţele cuantizorului vectorial optimal, similar cazului scalar, sunt greu de evaluat pentru cazul general Pentru o rată de bit/simbol b impusă, o măsură de performanţă rămâne distorsiunea D a cuantizorului, definit conform (2 53) sau (2 54) O expresie explicită a acestei distorsiuni D, în ipoteza de “rezoluţie fină”, deci în cazul unui număr L mare, ce permite ca funcţia ! densitate de probabilitate () x să poată fi aproximată printr-o constantă în ( ) N21XXxxxpp, ,,= interiorul unei celule Voronoi, este [Mor 95]: Autor: ing Tibor AsztalosTeză de doctorat Capitolul II 31 N2N+ /  + /!! b22NN2− (2 57) () () () xx =σ= []  X2dpNCNDε ∫ N  ℜ  unde C(N) este o constantă ce depinde doar de N 2 În cazul unui proces de intrare gaussian cu puterea σ Xşi cu o matrice de autocorelaţie normată de ordin N notată cu RX(N), distorsiunea (2 57) devine: / b2N122− detR(2 58) σ⋅=σ= () ()() [] XX2NNCDε Se poate arăta, [Mor 95], că C(N) este o funcţie monoton descrescătoare de N cu: 3 ∞π= ()() 1C,1C= 2 Punând N=1 în (2 57) regăsim relaţia (2 41), definită pentru cazul cuantizării optimale scalare a unei surse gaussiene Această comparaţie “optimal vectorial” - “optimal scalar” poate fi făcută pentru orice tip de ! densitate de probabilitate () xp Astfel, pornind de la expresia (2 57), se poate defini câştigul X cuantizării vectoriale faţă de cuantizarea scalară prin raportul: 2 () 1σ ε G= (2 59) 2v () Nσ ε α /1  !!! α Notând: (), (2 60) () []  XXdppxxx ∫ =α N  ℜ  ! ~ cu () densitatea de probabilitate marginală de ordin întâi a procesului X precum şi cu xp X !! ()() x densitatea de probabilitate a vectorului X, cu componente N21XXxxxpp, ,,= independente, vom putea scrie: N ~ ()() = ∏ iXN21Xxpx, ,x,xp(2 61) 1i = iar câştigul de cuantizare: ~ () ( ) xp1C⋅ 3/1X () ! vNG= () () xpNC⋅ () 2N/NX+ ! xpxp~⋅ () () () () 2N/NX3/1X1C+ () !!(2 62) vNG= ()() () xpxpNC⋅ ⋅ 2N/NX2N/NX+ + ()() () ⋅= 321vGGGNG⋅ Expresia (2 62) pune în eviden ţă trei factori ai câştigului de cuantizare Gv Primul factor G1 fiind un raport de două constante, pune în eviden ţă un câştig “dimensional”, indicând avantajul utilizării cuantizării vectoriale de ordin N faţă de cuantizarea scalară Cel de al doilea factor, G2, ţine cont de ! ~ forma densităţii marginale (), ce depinde, bineînţeles, de natura procesului de intrare X Astfel xp X , în timp ce pentru o lege se obţine [Mor 95], pentru o lege de probabilitate uniformă () N,1NG∀ 2= 2/3 3 NG= de probabilitate gaussiană () Cel de al treilea factor este cel mai () 2/2N2+ ()() N/2N+ ! interesant deoarece el ţine cont de corelaţia existentă între diferitele componente ale vectorului X ! 2 În cazul unui proces X gaussian cu puterea σ şi cu matricea de autocorelaţie normată RX(N), X N1/− () rezultă () R [] X3NGdet= Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 32 Capitolul III Descompunerea eficientă în serii de funcţii a semnalelor în timp continuu Reprezentarea adecvată a unui semnal, în vederea compresiei, este foarte importantă din punctul de vedere al obţinerii unor performanţe bune În primul capitol s-a arătat faptul că noţiunea de compresie este asociată cu o reprezentare discretă a semnalului ce urmează a fi prelucrat Astfel, performanţele diferitelor sisteme de compresie sunt evaluate pe baza eficienţei metodei folosite în găsirea unor reprezentări discrete alternative ce corespund reprezentării discrete sursă S-a arătat, de asemenea, faptul că majoritatea sistemelor practice operează cu semnale de intrare în timp continuu, de energie finită, limitate în bandă, astfel încât reprezentarea sursă poate fi obţinută, cel mai simplu, printr-un proces de conversie analog-numerică Acest proces presupune, de cele mai multe ori, o eşantionare urmată de o cuantizare fină (de obicei cuantizare scalară uniformă), astfel încât să fie posibilă o reconstrucţie aproape perfectă a semnalului de intrare În cele ce urmează vom avea în vedere, cu preponderenţă, operaţia de discretizare a variabilei temporale, punând accent pe eficienţa diverselor reprezentări posibile în cazul unor categorii diferite de semnale De fapt, teorema eşantionării (teorema WKS) ne asigură de faptul că orice semnal de bandă limitată, eşantionat corespunzător, poate fi reconstruit exact din eşantioanele sale Însă, din păcate, această clasă de semnale este una foarte restrânsă şi, conform proprietăţilor transformării Fourier, ele sunt cu suport temporal infinit Din acest motiv semnalele întâlnite în mod curent în practică nu pot face parte din această clasă (fiind cauzale şi, în general, cu suport temporal finit) ℜ∈ Fie semnalul () ( ) 2Ltx Se pune problema găsirii unei reprezentări discrete echivalente a sa, {} , astfel încât semnalul continuu x(t) să poată fi reconstruită exact, sau cu erori de Zkkx∈ aproximare foarte mici, pe baza cunoaşterii valorilor secvenţei xk În cazul general, valorile xk pot fi privite ca şi coeficienţi ai unei descompuneri liniare a semnalului x(t) într-o bază de funcţii a ℜ spaţiului () 2L ∞ ϕ⋅= () () ∑ kktxtx(3 1) −∞= k unde () tϕ k reprezintă funcţiile bazei descompunerii Din punctul de vedere al compresiei sunt utile acele reprezentări (3 1) care reuşesc să concentreze toată energia semnalului pe un număr redus de coeficienţi xk Prin păstrarea şi prelucrarea (cuantizarea şi codarea) doar a acestor coeficienţi se obţine eficienţa maximă în “compresia” semnalului ξ De fapt, atât expresia x(t) cât şi a transformatei Fourier a sa, (), pot fi privite ca şi xˆ ℜ dezvoltări în baze de funcţii speciale ale spaţiului () 2L Astfel se poate scrie: ∞ () ( )( ) ττ−δτ= dtxtx(3 2) ∫ ∞− şi, respectiv, ∞ 1 ξ tj () ξ⋅ξ= () dexˆtx(3 3) ∫ π 2 ∞− În ambele cazuri însă, baza de funcţii este cu indexare continuă (distribuţii Dirac în (3 2) şi exponenţiale complexe în (3 3)) neoferind deci, o reprezentare de forma (3 1) Ele prezintă importanţă, totuşi, deoarece pot fi considerate ca fiind reprezentări extreme ale semnalului x Astfel, relaţia (3 2) oferă reprezentarea cu rezoluţie maximă în domeniu timp dar fără nici o localizare frecvenţială (calitate datorată funcţiilor descompunerii - distribuţii Dirac translatate), în timp ce (3 3) este reprezentarea cu localizare perfectă în frecven ţă dar fără nici o localizare temporală Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 33 (calitate dată de natura funcţiilor bazei - exponenţiale complexe) Acest al doilea tip de analiză, numită şi analiză Fourier, oferă o unealtă puternică ce permite caracterizarea unui semnal în domeniul frecvenţă Ea stă la baza analizei spectrale, specificând o relaţie univocă între domeniul timp şi domeniul frecvenţă Eficienţa reprezentării unui semnal într-una din bazele mai sus menţionate depinde de natura semnalului Astfel, de exemplu, dacă semnalul prezintă un număr relativ redus de variaţii bruşte (salturi finite), este preferată reprezentarea (3 2), deoarece (3 3) va oferi o imagine cu un număr foarte mare de coeficienţi semnificativi Insă reprezentarea (3 3) este eficientă în cazul unor semnale periodice Un semnal armonic, de exemplu, va fi reprezentat cu ajutorul a maxim doi coeficienţi nenuli Este de remarcat faptul că reprezentarea (3 3) a majorităţii semnalelor periodice implică o mulţime numărabilă de funcţii ale bazei, deci va fi o expresie de forma (3 1) Este vorba despre seriile Fourier asociate acestor semnale Semnalele întâlnite în practică pot fi încadrate, în general, între cele două categorii amintite, prezentând atât variaţii bruşte cât şi evoluţii periodice sau cvasi- periodice Acest fapt ne sugerează ideea căutării celei mai bune baze pentru aceste semnale printre funcţiile cu caracteristici similare atât funcţiilor Dirac (localizare perfectă în timp) cât şi exponenţialelor complexe (localizare perfectă în frecven ţă) Având în vedere cele două “dimensiuni” vizate ale funcţiilor bazei ele sunt denumite în mod curent baze timp-frecvenţă Dezvoltarea semnalului într-o astfel de bază reprezintă o extensie particulară a tehnicilor de analiză de semnal Ea constituie un caz particular de reprezentare timp-frecvenţă, TFR (Time Frequency Representation), ce asociază unui semnal unidimensional (de obicei după variabila timp) o funcţie bidimensională având ca şi variabile timpul şi frecvenţa Astfel se pot elimina diversele neajunsuri ale reprezentărilor (3 2) şi (3 3) prezentate până acum Noua reprezentare este în aparentă contradicţie cu o imagine de forma (3 1) însă, în fond, acest lucru nu înseamnă altceva decât o schimbare a convenţiei de indexare folosite, în sensul trecerii la o indexare după două variabile independente urmată de o eventuală discretizare a acestor variabile Există mai multe clase de reprezentări timp-frecven ţă O categorie de reprezentări TFR o constituie cele liniare, reprezentări ce urmăresc o descompunere liniară a semnalului de analizat după o mulţime de funcţii (mulţime ce formează o bază într-un spaţiu sau subspaţiu de semnale), [Lan 62], [Dau 88], [Coi 89], [Hla 89], [Hla 91], [Coi 91], [Dau 91], [Aus 92], [Chu 92c], [Gop 92c], [Gop 92d], [Dau 92], [Ald 93], [Dau 93], [Fla 93], [Uns 93b], [Uns 93c], [Wes 93], [Wic 93], [Che 94], [Che 95], [Gir 95], [Fei 96a], [Fei 96b], [Str 97] Caracterizarea proprietăţilor semnalului în acest caz se face în termenii proprietăţilor acestor funcţii pe baza coeficienţilor descompunerii obţinute Astfel, de exemplu, proprietăţile de localizare în planul timp-frecvenţă ale unui semnal vor putea fi stabilite având în vedere cele ale funcţiilor bazei descompunerii De exemplu, un coeficient mare al descompunerii semnalului în baza considerată, detectabil pe baza măsurii lui, va marca poziţia în planul timp-frecvenţă a elementului corespunzător al bazei, contribuind astfel semnificativ la imaginea timp-frecvenţă a semnalului analizat Problema tehnică fundamentală constă în faptul că se atribuie o anumită poziţie unei funcţii care este nenulă într-o regiune largă (sau chiar regiune infinită) respectiv în faptul că se asignează o anumită frecven ţă unor componente diferite de cele armonice O altă categorie de reprezentări timp-frecven ţă o constituie cele care "transformă" semnalul ξ x(t) într-o funcţie bidimensională () ,tT având ca argumente variabilele timp şi frecven ţă, [Hla 89], x [Hla 92], [Fla 93] Multe dintre aceste reprezentări timp-frecven ţă descriu o evoluţie spectrală în ξ funcţie de timp (util în studiul semnalelor nestaţionare) Valorile funcţiei () oferă informaţii de ,tT x genul: "ce componente spectrale sunt prezente şi la ce momente de timp" Se poate observa faptul că, orice semnal poate fi reprezentat în planul timp-frecvenţă în moduri variate, alegerea reprezentării celei mai adecvate rămânând pe seama scopului urmărit, a Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 34 contextului în care ea se foloseşte În cele ce urmează ne vom ocupa mai cu seamă de reprezentările timp-frecven ţă liniare, cele care pot oferi o analiză de formă (3 1) - o dezvoltare liniară, a unui semnal Prin definiţie o bază timp-frecven ţă este o bază “bună” a unui spaţiu de funcţii S (un spaţiu Hilbert) dacă sunt îndeplinite următoarele trei condiţii: i) funcţiile () tϕ k ale bazei formează o bază “stabilă” de reprezentare a oricărei funcţii a spaţiului S Prin “stabilă” înţelegem faptul că pentru orice funcţie () există o singură secvenţă Stx∈ {} astfel încât seria dată de (3 1) să fie convergentă în norma spaţiului S Este de dorit o Zkkx∈ convergenţă necondiţională (ordinea de însumare este nerelevantă); ii) funcţiile bazei sunt cu localizare bună în timp şi în frecvenţă Această condiţie este ϕ asigurată dacă funcţiile () şi () sunt concentrate într-un interval din jurul centrelor lor de tϕ kξkˆ greutate (valorile medii ale lor) şi sunt cu descreştere invers polinomială sau exponenţială în afara acestuia sau sunt cu suport compact; {} ϕ permite o implementare uşoară pe calculator a dezvoltării în iii) baza de funcţii () Zkkt∈ serie Trebuie să avem metode rapide de calcul a coeficienţilor xk pentru o analiză eficientă De asemenea, funcţiile () trebuie să se genereze uşor în vederea unui proces rapid de sinteză a tϕ k funcţiei x(t) atunci când se cunosc coeficienţii xk ϕ {} Prima condiţie este asigurată dacă mulţimea de funcţii () formează o bază Riesz a Zkkt∈ spaţiului Hilbert S Este de preferat ca această bază să fie una ortogonală, caz în care se simplifică atât procedurile de analiză şi, respectiv, de sinteză, cât şi evaluarea performanţelor sistemelor în care aceasta apare (de exemplu evaluarea erorii de aproximare la reconstrucţie) Astfel, prin definiţie, dacă funcţiile () verifică: tϕ k () =ϕϕ i) () kllkt,tδ ii) orice funcţie x(t) din spaţiul de semnale S poate fi pusă sub forma (3 1) ∀ ϕ iii) 1=, Zk∈ Sk {} ϕ atunci mulţimea () formează o bază ortonormală a spaţiului S Zkkt∈ Media (centrul de greutate temporal) şi, respectiv, întinderea temporală a unei funcţii () tϕ pot fi evaluate pe baza definiţiilor: ∞ 12 dtttt ϕ⋅= () ∫ 20 ϕ ∞− S (3 4) ∞ 12 22 dttttt ϕ⋅−=∆ ()() 0 ∫ 2 ϕ ∞− S În mod similar, media şi întinderea frecvenţială poate fi evaluată conform: ∞ 12 dˆ ξξϕ⋅ξ=ξ () ∫ 20 ϕ ∞− S (3 5) ∞ 122 2 dˆ ξξϕ⋅ξ−ξ=ξ∆ ()() 0 ∫ 2 ϕ ∞− S Localizarea bună atât în timp cât şi în frecven ţă poate fi asigurată în limitele principiului incertitudinii al lui Heisenberg-Gabor Acest principiu afirmă că nu există nici o posibilitate ca o Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 35 analiză timp-frecven ţă să se facă cu o precizie arbitrar de bună simultan atât în domeniul timp cât şi în domeniul frecvenţă, [Fla 93] Precizia ce se poate obţine se numeşte rezoluţie de localizare (temporală sau frecvenţială) Cu notaţiile (3 4), (3 5), aceasta se exprimă sub forma: 1 ξ∆⋅∆ (3 6) t≥ 2 2 α α− t ℜ∈α⋅=ϕ unde avem egalitate doar pentru un semnal gaussian de forma () ,et π Alte câteva proprietăţi utile ale funcţiilor bazei sunt: - de covarianţă în raport cu anumite operaţii elementare (translaţie, modulare, scalare); - de continuitate şi diferenţiabilitate; - proprietăţi de moment Importanţa majoră a unei bune localizări a funcţiilor bazei descompunerii rezidă în faptul că de ea depinde în ce măsură va fi “dispersată” informaţia oferită de un eveniment local (în timp sau în frecven ţă) pe coeficienţii descompunerii Astfel, de exemplu, un salt brusc în semnalul analizat (un eveniment local în timp) va influenţa un număr de coeficienţi xk cu atât mai puţin numeroşi cu cât întinderea temporală a funcţiilor bazei este mai redusă În mod similar, o componentă repetitivă în structura semnalului de intrare se va reflecta doar în coeficienţii corespunzători acelor funcţii ale bazei care au valoare nenulă a spectrului lor pe frecvenţa (frecvenţele) caracteristică evenimentului repetitiv Astfel, aceste baze timp-frecvenţă pot oferi o descompunere de forma (3 1) “bună” a unui semnal x(t) cu un anumit comportament local, o reprezentare caracterizată printr-un număr redus de coeficienţi xk cu valori semnificative Exemple de astfel de baze sunt date de: - funcţiile sinus-cardinal, ce formează o bază în spaţiul semnalelor de bandă limitată, - funcţiile trigonometrice locale, - funcţiile Wavelet, - pachetele de funcţii trigonometrice locale, - pachetele de funcţii Wavelet Numeroase alte exemple de baze timp-frecvenţă speciale se găsesc în unele din lucrările mai sus citate Astfel, în [Lan 62] sunt abordate funcţiile sferoidale aplatizate, ce pot forma o bază ortogonală optimală a spaţiului semnalelor de bandă limitată, în [Dau 88] - baze de funcţii Wavelet de suport compact, în [Coi 89] - baze de funcţii similare sistemelor Walsh, în [Dau 91] - anumite tipuri de baze Wilson, în [Gop 92c], [Gop 92d] - baze de funcţii Wavelet modulate, în [Che 94] sunt analizate familiile de funcţii cardinale de tip spline, în [Fei 96a] şi [Fei 96b] sunt studiate proprietăţile unor descompuneri atomice de tip Gabor, etc De o atenţie deosebită se bucură, în aplicaţiile practice curente, funcţiile Wavelet deoarece: ℜ - pot forma o bază Riesz a spaţiului() 2L; - această bază se poate construi pornind de la o singură funcţie Funcţiile bazei sunt de fapt variantele deplasate şi rescalate ale acestei funcţii, denumită funcţie de scară; - coeficienţii xk sunt produsele scalare ale funcţiei x(t) cu funcţiile Wavelet duale funcţiilor bazei; - sunt funcţii cu o localizare bună în timp şi în frecvenţă, ℜ - realizează o structurare atractivă a spaţiului de semnale () 2L, - se bucură de proprietăţi matematice “bune” ce facilitează implementarea rapidă atât a analizei cât şi a sintezei unui semnal Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 36 3 1 Descompunerea semnalelor în baze de funcţii Wavelet Funcţiile Wavelet sunt unelte relativ noi în domeniul prelucrărilor de semnale La ora actuală interesul faţă de aceste funcţii este mare atât din partea teoreticienilor cât şi din partea inginerilor care investighează posibilele utilizări eficiente ale lor în domenii foarte variate Teoria funcţiilor Wavelet caută, în general, reprezentarea eficientă a unor funcţii (semnale), de diferite categorii cu caracteristici foarte diferite, în termenii unor componenţi de bază, cu caracterizare simplă, cu caracteristici de localizare timp-frecvenţă bune Impactul major al acestei teorii s-a cristalizat în urma unor lucrări de referin ţă din domeniul analizei armonice semnate Grossmann, Morlet sau Meyer, cu mai mult de un deceniu în urmă [Gro 84], [Mey 90] De atunci acest subiect a constituit tema unei activităţi de cercetare vaste în mai toate domeniile de interes Aplicabilitatea acestora în diverse faze de prelucrare a semnalelor a fost analizată atât de matematicieni cât şi de ingineri S-au analizat proprietăţile unor clase foarte variate de funcţii Wavelet [Des 87], [Dau 88], [Coi 89], [Chu 91], [Dau 91], [Chu 92c], [Aus 92], [Coh 92], [Dau 92], [Che 94], [Ald 93], [Uns 93b], [Swe 94b], [She 98], s-au implementat algoritmi eficienţi de calcul, [Hei 89], [Mal 89b], [Bey 91], [Wic 91], [Rio 92], [She 92], [Bou 94], [Pre 93], [Wic 94], [Swe 95a], [Swe 95b], s-au propus căi alternative de soluţionare a unor probleme matematice complexe (cum ar fi soluţionarea numerică a ecuaţiilor diferenţiale etc ), [Swe 94a] De asemenea, au fost dezvoltate noi metode de filtrare în subbenzi [Vai 88], [Vai 89], [Vet 89], [Coh 90], [Gop 92a], [Gop 92d], [Vet 92], [Gop 93], [Her 93], [Vet 95], au fost concepute scheme piramidale deosebit de eficiente în prelucrarea imaginilor [Mal 89a], [Rio 93a], [Uns 93a], [Wal 95], au fost concepute metode noi de îmbunătăţire a raportului semnal/zgomot din diverse domenii (radar, sonar, ecografie, tomografie, geologie, astronomie etc) [Don 93], [Don 95a], [Isa 95a], [Isa 95b], au fost propuşi noi algoritmi de compresie [Wic 89], [Sin 93], [Pan 93], [Rio 93a], [Sha 93] etc Unele dintre avantajele majore oferite de aceste funcţii au fost amintite în paragraful anterior În cele ce urmează vom considera că ℜ funcţiile analizate aparţin spaţiului () 2L, situaţiile specifice vor fi indicate în mod explicit Una dintre proprietăţile de bază a funcţiilor Wavelet o reprezintă faptul că ele se asociază cu o ℜ structurare bună a spaţiului de semnale () Astfel, Mallat şi Meyer au introdus noţiunea de 2L analiză multirezoluţie ce oferă un cadru general de studiu pentru dezvoltarea semnalelor în baze de funcţii Wavelet ortogonale şi neortogonale [Mal 89b], [Mey 90] Ei au făcut, de asemenea, conexiunea acestor tehnici cu metodele de filtrare în cuadratură şi de filtrare în subbenzi Daubechies a propus metode eficiente de construcţie a unor funcţii Wavelet cu suport compact şi cu o regularitate arbitrară, impusă [Dau 88], [Dau 91], [Dau 92] Definiţia 3 1 [Swe 93] ℜ Analiza multirezoluţie a spaţiului () 2L este definită ca o secven ţă de subspaţii închise () {} ℜ⊂ 2jLV, ce verifică următoarele proprietăţi : ∈ Zj ⊂ i) Zj,VV∈, + 1jj∀ ( ) ∈⇔∈ , ii) () 1jjVt2xVtx+ ℜ∈∀∈+⇔∈ iii) () ( ) t,V1txVtx, 00 ∞∞ iv) !V este densă în () iar {}, 2L"= j0V jℜ −∞=−∞= jj Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 37 ∞ ϕ ϕ v) există o funcţie (), denumită funcţie de scară, cu(), astfel încât mulţimea 0dtt≠ 0Vt∈ ∫ ∞− (){} −ϕ formează o bază Riesz a subspaţiului V0 Zkkt∈ () ∈ϕ Observaţie: deoarece () , există o secven ţă {} astfel încât funcţia de scară să Zlh∈ 10VVt⊂2Zkk∈ se poată scrie sub forma: ∞ ()() +ϕ=ϕ ∑ kkt2h2t (3 7) −∞= k Prin integrarea ecuaţiei (3 7) rezultă condiţia de normare ∞ = ∑ k2h(3 8) −∞= k ℜ Dacă funcţia de scară () aparţine spaţiului de semnale () ea este în mod univoc definită de tϕL 1 ecuaţia (3 7) şi condiţia de normare: ∞ () ϕ (3 9) 1dtt= ∫ ∞− Dacă se notează: ∞ 2 () ( ) π+ξϕ=ξ k2ˆb(3 10) ∑ −∞= k {} −ϕ formează o bază Riesz a subspaţiului V0 corespunde faptului că faptul că mulţimea () Zkkt∈ există două constante pozitive 0B,A> astfel încât: ℜ∈ξ∀∞ 1t0  + orice interval Zk),1k,k[∈, deci V0 este spaţiul semnalelor cu variaţii liniare pe porţiuni; 2 θ=ϕθ ∈ϕ , cu () anterior definit Funcţia de scară (), este o funcţie B-spline c) () () () ( ) t*ttθtℜ Ct + cubică Un semnal () este un polinom de grad maxim trei pe orice interval Zk),1k,k[∈, 0Vtx∈ deci V0 este spaţiul semnalelor cu variaţii polinomiale pe porţiuni; () tsinπ ϕ d) () Un semnal () este de bandă limitată, cu o transformată Fourier ce verifică t= 0Vtx∈ tπ () {} π≥ξ=ξ−ϕ formează o bază ortonormală a lui Vo, ,0xˆ În acest caz mulţimea () Zkkt∈ coeficienţii descompunerii semnalului x(t) în această bază sunt chiar eşantioanele x(k) ale lui În multe cazuri găsirea explicită a expresiei analitice a funcţiei () se dovedeşte a fi o tϕ problemă dificilă Există însă algoritmi rapizi de calcul ce permit, pe baza ecuaţiei (3 7), o evaluare j− rapidă a acestor funcţii în punctele diadice de forma Zk,j,k2t∈, [Dau 88], [Bou 94] k= Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 38 Există numeroase aplicaţii în care nici nu se cere expresia explicită a acestor funcţii de scară, ajunge cunoaşterea doar a valorilor secvenţei hk Din definiţia 3 1 a analizei multirezoluţie se poate deduce, [Dau 88], [Mey 90], [Dau 92], că {} mulţimea de funcţii (), cu tϕ Zkk,j∈ jj () ⋅=ϕ ()(3 12) kt22t− k,jϕ este o bază Riesz a subspaţiului Vj ℜ Definiţia 3 1 a analizei multirezoluţie ne permite caracterizarea semnalelor () 2L în termenii apartenenţei la unele subspaţii Vj sau în termenii proiecţiei acestora pe aceste subspaţii Deoarece ℜ reuniunea subspaţiilor Vj este densă în () 2L (proprietatea iv) din definiţia 3 1) avem certitudinea ℜ∈ că orice funcţie () ( ) 2Ltx poate fi aproximată, cu o precizie oricât de bună, prin proiecţiile sale în aceste subspaţii Se notează cu Wj complementul lui Vj în spaţiul Vj+1, astfel încât se poate scrie: = (3 13) j,WVV∀ jj1j⊕ + Proprietăţi similare proprietăţilor ii) şi iii) din definiţia 3 1 sunt verificate şi de aceste spaţii [Mey 90] Astfel, se poate scrie, () ( ) ∈⇔∈ 1jjWt2xWtx+ ℜ∈∀∈+⇔∈ () ( ) t,W1txWtx(3 14) 00 ℜ Rezultă că spaţiul () 2L poate fi pus sub forma unei sume directe de subspaţii Wj: ∞ ℜ=⊕ () 2jLW(3 15) −∞= j ∞ ψ ψ Mai mult, există o funcţie (), denumită funcţia Wavelet mamă, cu(), astfel încât 0dtt= 0Wt∈ ∫ ∞− {} −ψ formează o bază Riesz a subspaţiului W0, [Mey 90] mulţimea () Zkkt∈ () ∈ψ Deoarece funcţia (), există o secven ţă {} astfel încât funcţia Zlg∈ 2Zkk∈ 10VWt⊂ Wavelet mamă verifică relaţia: ∞ ()() +ϕ=ψ ∑ kkt2g2t (3 16) −∞= k {} În mod similar, se poate deduce imediat că mulţimea de funcţii (), cu tψ Zkk,j∈ jj () () ⋅=ψ (3 17) kt22t− k,jψ este o bază Riesz a subspaţiului Wj {} formează o bază Riesz De interes practic sunt cazurile în care reuniunea bazelor Riesz () tψ Zkk,j∈ {}{} ℜϕψ a spaţiului () t şi ()t sunt ortogonale 2Lsau cele în care bazele Riesz () Zkk,j∈Zkk,j∈ ℜ (rezultând baze ortogonale ale lui () 2L) Sunt prezentate numeroase exemple de analiză multirezoluţie în [Mey 90], [Dau 88], [Dau 91], [Dau 92], [Mal 89b], [Mal 93], [Sav 94] Numeroase exemple de funcţii de scară se găsesc în lucrările deja citate Este posibilă însă ortogonalizarea oricărei baze Riesz, conform [Mey 90], [Dau 88] Astfel, orice bază Riesz poate fi transformată, printr-o procedură Gram- Schmidt de ortogonalizare, într-o bază ortonormală Conform acestei proceduri, dacă mulţimea (){} ϕ formează o bază Riesz a unui subspaţiu Vj, atunci funcţiile definite conform relaţiei : Zkkt∈ Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 39 ˆ () ξϕ ˆ (3 18) () =ξϕ ortho ξ () b ξ formează o bază ortonormală a acestui subspaţiu Proprietatea (3 11) a funcţiei (), definită b ∈ξ conform (3 10), ne asigură că numitorul nu se va anula pentru nici o valoare ℜ 3 1 1 Descompuneri Wavelet ortogonale {} −ϕ Se va considera în continuare că mulţimea () este o bază ortonormală a spaţiului Zkkt∈ V0 Astfel, aceste funcţii ale bazei verifică proprietatea: δ=〉−ϕϕ〈 (3 19) () ( ) Zk,kt,t∈ k∀ Prin aplicarea formulei de însumare a lui Poisson se găseşte că (3 19) este echivalentă condiţiei: ∞ 2 () ( ) ℜ∈ξ∀=π+ξϕ=ξ ,1k2ˆb(3 20) ∑ −∞= k Aceasta este verificată, conform definiţiei (3 7), dacă: 22 ()() ℜ∈ξ∀=π+ξ+ξ 2HH(3 21) ξ unde () H reprezintă transformata Fourier în timp discret a secvenţei numerice hk În domeniul timp condiţia (3 21) se poate scrie sub forma: ∞ δ=⋅ (3 22a) Zlhh∈ ∑ − ll2kk∀ = k−∞ De asemenea, deoarece condiţia (3 8) este echivalentă cu (), rezultă: 20H= k ( ) =−⇔=π () ∑ k0h10H(3 22b) k TEOREMA 3 1 {} {} −ϕ În ipoteza că () este o bază ortonormală a spaţiului V0, mulţimea () este tϕ Zkkt∈ Zkk,j∈ o bază ortonormală a spaţiului Vj Demonstraţie: În primul rând se demonstrează că funcţiile ϕ Z sunt ortonormale În acest j,k(t), k∈ scop se calculează produsul scalar : ∞ ∗ jjj −ϕϕ〉〈 k-t2(2=(t)(t),j =l)dtt2(2) ϕϕ ∫ lj,kj, ∞− ∞ ∗ j −ϕ−ϕ= kt2(2jj l)dtt2() ∫ ∞− Făcând schimbarea de variabilă : j t2 u= se obţine : ∞∞ ∗∗ − −ϕ⋅−ϕ−ϕ⋅−ϕ〉〈 l)du(uk)(u=du2l)(uk)(u2=(t)(t),jj ϕϕ ∫∫ lj,kj, ∞−∞− {} −ϕ Ţinând seama de ortogonalitatea mulţimii () , (ea verifică (3 18)), rezultă că : Zkkt∈ 〉〈 ϕϕ kllj,kj,=(t)(t),δ {} şi prin urmare mulţimea () este ortonormală tϕ Zkk,j∈ Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 40 {} Se demonstrează completitudinea mulţimii () În acest scop se consideră o funcţie tϕ Zkk,j∈ {} −ϕ este : oarecare x(t) din V0 Descompunerea acesteia în baza ortonormală () Zkkt∈ −ϕ⋅〉−ϕ〈 k)(tk)(t,)t(x=x(t)(3 23) ∑ k j Dar funcţia x(2t)∈ conform proprietăţii ii) a analizei multirezoluţie (definiţia 3 1) De Vj aceea, făcând în (3 23) schimbarea de variabilă : j t u2= se obţine : jjjj −ϕ⋅〉−ϕ〈 k)u2(k)u2(u),2x(=u)2x((3 24) ∑ k j Această relaţie arată că orice element din Vj (fiind de forma x(2t) unde x(t) este în V0) se {} poate exprima ca o combinaţie liniară de elemente ale mulţimii () Deci această mulţime tϕ Zkk,j∈ este completă Rezultă că ea este o bază ortonormală a spaţiului Vj Legătura dintre funcţiile bazelor subspaţiilor Vj succesive poate fi stabilită pe baza definiţiei 3 1 a analizei multirezoluţie, a proprietăţii (3 7) precum şi a definiţiei (3 12) a spaţiului V-1 Cum acesta este inclus în V0 (conform Să considerăm baza () {} tϕ − Zkk,1∈ {} −ϕ definiţiei 3 1 avemVV⊂ ), funcţiile () pot fi descompuse în baza () a lui {} tϕ − 01− Zkkt∈ Zkk,1∈ V0 Această descompunere poate fi scrisă : ⋅〉−ϕ〈ϕ (3 25) (t)− (t),= k)(tk)(t ϕ ∑ − − n1,n,1ϕ k Însă : ∞ 1 ∗− 1 −ϕ−ϕ〉−ϕ〈 nt2(=k)(t(t), k)(t) dt ϕ ∫ − n1, 2 ∞− -1-1 Cu schimbarea de variabilă 2t-n = 2v se obţine : ∞ 1 ∗− 1 −ϕ⋅ϕ〉ϕ〈 v2(=k)-(t(t), k)2n+(v) dv(3 26) ϕ ∫ − n1, 2 ∞− {} −ϕ şi introducând (3 7) în (3 26) obţinem: Ţinând seama de ortogonalitatea mulţimii () Zkkt∈ * 〉−ϕϕ〈 (3 27) − −kn2n,1h=k)(t(t), şi revenind la relaţia (3 25) avem : * ϕ⋅ ϕ ∑ − kn2n1,)k-t(h=(t)(3 28) − k Procedând analog se poate demonstra că pentru orice j negativ este valabilă relaţia : * ϕ⋅ϕ ∑ +− k,1jkn2n,j(t)h=(t)(3 29) k În [Rio 93a] se prezintă conceptul de analiză multirezoluţie pentru spaţiul Hilbert al semnalelor în timp discret de energie finită, l2(Z) Alte generalizări sunt prezentate în [Lew 94], [Isa 93a], [Isa 93b], [Isa 97], [Jaw 94], [Mal 91], [Mal 93] Definiţia 3 2 O analiză multirezoluţie, ce verifică proprietăţile i)-v) din definţia 3 1, se numeşte analiză multirezoluţie ortogonală dacă subspaţiile Wj, construite conform (3 13), verifică : ⊥ ZjVW∈ jj∀ Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 41 Cu alte cuvinte, într-o analiză multirezoluţie ortogonală, pentru orice nivel de rezoluţie j, subspaţiul Wj este complementul ortogonal al lui Vj în Vj+1 Astfel, în acest caz, (3 13) poate fi rescris sub forma: ⊥ = (3 30) j,WVV∀ + jj1j⊕ Se poate demonstra uşor, [Dau 88], [Swe 93], că o condiţie suficientă ca o analiză multirezoluţie să fie una ortogonală este ca: VW⊥(3 31) 00 În legătură cu analiza multirezoluţie ortogonală, introdusă prin definiţia 3 2, se poate arăta că şirul de subspaţii {Wj}j∈ definit conform (3 30) reprezintă o descompunere ortogonală a spaţiului Z ℜ Hilbert al semnalelor de energie finită () 2L, [Dau 88] Definiţia 3 3 ℜ Şirul de subspaţii Hilbert închise {Wj}j∈ Z este o descompunere ortogonală a lui () 2L dacă sunt îndeplinite condiţiile : i) m≠ p => Wm⊥Wp ii) )(LWℜ ! 2j= Zj∈ [Cri 65] Deoarece subspaţiile Wj, j∈, sunt mutual ortogonale iar reuniunea lor este densă în )(Lℜ Z 2 proprietatea (3 15) poate fi rescrisă sub forma: ⊥ ℜ=⊕ () 2jLW ∈ Zj ℜ În legătură cu descompunerile ortogonale ale lui () se poate demonstra următoarea 2L teoremă : TEOREMA 3 2 ψ astfel încât : Există o funcţie () 0Wt∈ {} −ψ formează o bază ortonormală a subspaţiului W0, i) mulţimea () Zkkt∈  jj () formează o bază ortonormală a lui Wj pentru orice j ii)mulţimea () −ψ=ψ  k,jkt22t   Zk∈ din Z Demonstraţie : ψ , condiţia (3 31) se poate pune sub forma: Deoarece funcţia Wavelet() 0Wt∈ ∀=〉−ϕψ〈 (3 32) () ( ) Zk,0kt,t∈ Aplicând formula de însumare a lui Poisson, rezultă o condiţie echivalentă (3 32) în termenii transformatelor Fourier ale celor două funcţii: ()() ℜ∈ξ∀=π+ξϕ⋅π+ξψ 0k2*ˆk2ˆ(3 33) ∑ k O bază ortonormală a lui V1 este mulţimea (), conform teoremei 3 1 Introducând {} tϕ Zkk,1∈ notaţiile (3 7) şi (3 16) în (3 32) şi ţinând cont de ortogonalitatea acestor funcţii ale bazei spaţiului V1, rezultă o a treia expresie echivalentă condiţiei de ortogonalitate (3 31): Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 42 ** ℜ∈ξ∀=π+ξ⋅π+ξ+ξ⋅ξ () () ( ) ( ) 0HGHG(3 34) ξξ unde () şi ()reprezintă transformatele Fourier în timp discret ale celor două secvenţe numerice HG hk şi, respectiv, gk ξ Ea implică o expresie a lui () de forma: G * π+ξ⋅ξ=ξ ()(3 35) () ( ) HaG ξπ unde () a este o funcţie 2- periodică ce verifică: ξ−=π+ξ ℜ∈ξ∀=ξ ()() ,1a(3 36) aa şi () Condiţiile (3 35) şi (3 36) indică o legătura dintre cele două secvenţe hk şi gk Cea mai simplă legătură posibilă, ce asigură ortogonalitatea (3 31), este dată de: − djξ ξ () ea= ce implică: kd− − (3 37) g− = kdkh)1( unde d este un număr întreg impar oarecare Pe de altă parte, spaţiul V1, conform (3 30), este o sumă directă a subspaţiilor ortogonale V0 şi W0 : ⊥ 001WV=V⊕ Astfel, o bază a acestuia trebuie să se poată obţine prin concatenarea bazei ortonormale (t-n)}n∈ a lui V0 cu o bază ortonormală din W0 {ϕ Z Oricare ar fi semnalul x(t) din V1 el se poate exprima în forma : (t)e+(t)x=(t)x 00 unde x0(t) reprezintă proiecţia ortogonală a lui x(t) pe V0 iar e0(t) proiecţia lui x(t) pe W0 (eroarea de aproximare a lui x(t) prin x0(t)) ψ Pentru j=0 relaţia (3 29) devine : În continuare se construieşte funcţia () 0Wt∈ * ϕ⋅ϕ ∑ − k,1kn2n,0(t)h=(t)(3 38) k ψ Deoarece funcţia () (W0 ⊂ V1), şi ea trebuie să se poată exprima ca şi o combinaţie liniară a 0Wt∈ elementelor mulţimii () Prin analogie cu (3 38), se poate stabili că : {} tϕ Zkk,1∈ * ϕ⋅ψ ∑ − k,1kn2n,0(t)g=(t)(3 39) k unde gk reprezintă secvenţa numerică cu definiţia dată de relaţia (3 16) În mod similar relaţiei (3 28) şi această relaţie poate fi generalizată Astfel, se verifică uşor, prin inducţie, că are loc egalitatea: * ϕ⋅ψ Zj(t)g=(t)∈ ∑ +− k,1jkn2n,j∀ k Se calculează produsul scalar : ** =〉ϕϕ〈〉ψψ〈 ∑∑ − l,1lm2k,1kn2m,0n,0(t)g,(t)g=(t),(t)− lk (3 40) ** =〉ϕϕ〈= ∑∑∑ −−− km2kn2l,1k,1lm2kn2gg(t),(t)gg− klk Introducând expresia (3 37), relaţia (3 40) devine : * 〉ψψ〈 (3 41) ∑ −+− km2dkn2dm,0n,0hh=)t(),t(+ k Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 43 Se cunoaşte că : 〉ϕϕ〈 (3 42) =)t(),t(δ nmm,0n,0 şi calculând membrul stâng al acestei relaţii, pe baza lui (3 38), se obţine : * 〉ϕϕ〈 (3 43) ∑ − =)t(),t(− km2kn2m,0n,0hh k Folosind relaţiile (3 41), (3 42) şi (3 43) rezultă că : 〉ψψ〈 (3 44) nmm,0n,0=)t(),t(δ S-a demonstrat aşadar că mulţimea {ψ 0,n(t)}n∈Z este ortonormală În continuare se verifică faptul că funcţiile ψ Pentru aceasta 0,n(t) construite astfel nu aparţin lui V0 se calculează produsul scalar : ** =〉ϕϕ〈〉ϕψ〈 ∑ ∑ −− ,)t(g=)t(),t(l 1lm2k,1kn2m,0n,0)t(h lk ** =δ⋅=〉ϕϕ〈= ∑∑ ∑∑ −−−−− )t(hg lklm2kn2l 1k,1lm2kn2hg)t(, lklk ∗  *  ⋅= ∑ −− km2kn2hg  k  unde am folosit relaţiile (3 38) şi (3 39) Se calculează suma din membrul drept după schimbarea de variabilă 2m-k=p şi avem : ** [] == )mn(2rghhg− ∑∑ ∗ −−− ghp)mn(2pkm2kn2+ pk * unde cu rh*g [n] s-a notat intercorelaţia secvenţelor h şi g Dar pentru rh*g[n] putem scrie : ∗ ↔ (3 45) )()GH([n]rξ g*hξ  ξξξξ 1  ∗∗ π+π++↔ (3 46) r GHGH  g*h  22222    Ţinând seama de relaţia (3 34) : r*↔ 0 gh şi astfel va rezulta : =〉ϕψ〈 (t)(t),∈ 0 nm, Z m,0n,0∀ Deci funcţiile ψ sunt ortogonale pe V0 S-a demonstrat că mulţimea {ψ este 0,n(t)0,n(t)} n∈Z ortonormală în spaţiul W0 Completitudinea mulţimii {ψ 0,n(t)}n∈Z este demonstrată în [Mey 90] Se poate deci afirma că mulţimea {ψ 0,n(t)}n∈Z este o bază ortonormală a spaţiului W0 Afirmaţia i) a teoremei 3 2 este deci verificată Demonstraţia pentru verificarea afirmaţiei ii) este practic identică cu demonstraţia teoremei 3 1 Exemple de funcţii Wavelet ortogonale: 1  J,j∈ formează, pentru orice J∈ ZZ, o descompunere ortonormală a spaţiului ℜϕ ()() tconcatenată cu 2L Conform teoremelor 3 1 şi 3 2 rezultă că, în acest caz, mulţimea {} Zkk,J∈ {} ℜ mulţimea () formează o bază ortonormală a lui () tψ 2L Zk,Jjk,j∈ > ℜ c) Existenţa unor baze Wavelet ortonormale ale spaţiului() 2Lcompletează paleta de baze ortonormale deja cunoscute ale acestui spaţiu oferind flexibilitate în reprezentarea semnalelor Însă ele vor fi utile doar dacă reprezentările astfel obţinute sunt mai eficiente decât cele obţinute cu metodele tradiţionale 3 1 1 1 Construcţia funcţiei de scară ϕ (t) Expresia (3 7) pune în evidenţă o legătură strânsă dintre ponderile hk ale filtrului numeric şi funcţia de scară () Se poate arăta, [Dau 92], [Rio 93a], [Bou 94], că expresia funcţiei () tϕtϕ determină în mod univoc coeficienţii hk ai filtrului numeric şi invers, cunoaşterea valorilor hk ne în orice punct t permite evaluarea funcţiei de scară () tϕ Astfel, calculând transformata Fourier în cei doi membrii ai relaţiei (3 28) rezultă: ∞  11 ξ−−− tj11 ()() {} −ϕ=ξ−ϕℑ=ξϕ=ϕℑ dtent2)(nt2)(ˆ)t(  −− n,1n,1 ∫ 22   ∞− -1 Făcând schimbarea de variabilă 2t - n = u se obţine : Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 45 ∞∞ ξ−ξ−+ξ− nj2uj2)nu(2j ()() dueeu2dueu2)t( =ϕ=ϕ=ϕℑ {} − n,1 ∫∫ ∞−∞− ∞ ξ−ξ− ξ− nj2uj2nj2 2ˆe2dueue2 ξϕ=ϕ= ()() ∫ ∞− Deci : − nj2ξ ξϕ )2(ˆe2=)(ˆξ n,1ϕ şi relaţia (3 28) devine :  ξ )2n-(kj-*  ξϕ )(ˆe(h=)(2ˆ2ξ ∑ − kn2ϕ  k  adică : 1 ξ )2n-(kj-*v  ϕ ξϕ (3 47) )(ˆe(h=)(2ˆξ ∑ − n2k  2 k  unde am făcut notaţia : v h− = kkh Se face schimbarea de variabilă k-2n=p : −−ξ− pj*v)2n(kj*v11ξ (3 48) ∑∑ −pn2keh=eh pk22 În continuare, dacă facem notaţia : ξ− pj*v1 () ξ= ∑ 0pmeh(3 49) p2 relaţia (3 47) devine : ξξϕ (3 50) )(ˆ)(m=)(2ˆξ 0ϕ v* Se observă că m0(ξ are semnificaţia de transformată Fourier în timp discret a secvenţei hp, de ) variabilă ξ În relaţia (3 50) se face schimbarea de variabilă 2ξ = u şi avem : uu    ˆm=(u)ˆ(3 51) ϕ ϕ    0 22    Folosind relaţiile (3 50) şi (3 51) se obţine : ξ ξ     ˆ)m(m=)(2ˆ(3 52) ϕ ξξϕ     00 22     Procedând iterativ se poate demonstra că : ∞  ξ  () ϕξϕ 0ˆm=)(ˆ(3 53) ∏  p0  = 1p2 Dar, condiţiile (3 8), (3 9) implică : 1,=(0)ˆϕ 1=(0)m 0 şi relaţia (3 53) devine : ∞  ξ   ξϕ m=)(ˆ(3 54) ∏   p0  = 1p2 În consecinţă, în ipoteza că produsul din membrul drept converge, rezultă că ultima relaţie poate fi folosită pentru construcţia unei funcţii de scară pornind de la un anumit răspuns de tipul hk Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 46 Convergenţa produsului din membrul drept este asigurată de satisfacerea anumitor condiţii de existenţă şi/sau regularitate, (cum sunt condiţiile (3 8), (3 22a), (3 22b), cu privire la coeficienţii hk), [Rio 93a] Verificarea de către răspunsul la impuls hk a condiţiei (3 22b) implică, conform definiţiei (3 49) şi a expresiei (3 54): δ=πϕ () Zkk2ˆ∈ k∀ ceea ce este echivalentă cu condiţia: () ℜ∈∀=−ϕ t1kt(3 55) ∑ k o proprietate foarte utilă în reconstrucţia, prin interpolare, a semnalelor din proiecţiile lor pe diferitele subspaţii Vj Relaţia (3 54) oferă mecanismul de construcţie al unei funcţii de scară El este următorul : a) se alege un răspuns la impuls de filtru trece jos hk, v* b) se construieşte secvenţa hk, c) se calculează m0(ξ ) pe baza relaţiei (3 49), d) se calculează ϕ (ξ) pe baza relaţiei (3 54), [Bou 94], [Gop 92] 3 1 1 2 Construcţia funcţiei Wavelet ψ (t) Se determină legătura în domeniul frecvenţă corespunzătoare relaţiei (3 39) În acest scop se calculează transformatele Fourier ale celor doi membri ai relaţiei (3 39), introducând definiţiile (3 16) şi (3 17): * {} ℑ=−ψℑ {− n)(t t2(2g} k) ∑ − kn2ϕ k sau : − *njξ {} ℑ=ξψ )(ˆe− (2t2g k) ∑ − kn2ϕ k unde, făcând schimbarea de variabilă 2t-k=u, se obţine : ∞ − tjξ {} ϕ−ϕℑ k)(2t− = dtk)e(2t = ∫ -∞ ξ+ ku ∞ −ξ− ξ 1dukjj  =22 ˆe=(u)e ϕϕ  ∫ 222  ∞ - şi revenind la relaţia anterioară : ξ  ξ 1  ξ− nj *  =)(ˆekj- g ˆ ϕξψ  ekn2 ∑ − 2  22  k  de unde rezultă relaţia pentru transformata Fourier a lui ψ (t) : ξ  ξ 1  * −−  =)(ˆ)n2k(j g ˆ ϕξψ  ekn2 ∑ − 2  22  k  Cu notaţia : ξ 1ξ  *v− pj (3 56)  =mp1∑ eg 2 22 k Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 47 v g− = kkg ultima relaţie devine : ξ ξ     ˆm=)(ˆ(3 57) ϕ ξψ     1 22     care este o relaţie analogă celei notate (3 51) Ţinând seama de relaţia (3 54), (3 57) devine : ∞  ξ ξ    ξψ mm=)(ˆ(3 58)   ∏  p01    = 2p22 Această relaţie permite construcţia unei funcţii Wavelet pornind de la un anumit răspuns de tipul hk 3 1 1 3 Calculul coeficienţilor de proiecţie ai unui semnal pe subspaţiile Vj În continuare se determină proiecţiile unei funcţii x0(t) din V0 pe spaţiile V-1,V-2, …, VJ, adică funcţiile x-1(t), , xJ(t) : 〉ϕ〈 ϕ ∑ −− − (t)x(3 59) k1,k,101(t)(t)(t),x= k Coeficienţii acestei dezvoltări se notează cu s1[n] şi sunt daţi de : * 〉−ϕ⋅〈〉〈 ϕ ∑ − kn20n1,01=)kt(h(t),x=(t)(t),x=[n]s − k 〉−ϕ〈= ∑ 0kn2)kt((t),xh − k Folosind notaţia : ϕ〈 (3 60) 〉[k]s=k)(t(t),x 00− se obţine : (3 61) sh=[n]s∑[k] − 0kn21⋅ k În mod similar, se poate calcula proiecţia lui x0(t) din V0 pe spaţiul V-2 Coeficienţii acestei dezvoltări se notează cu s2[n] şi sunt daţi de : ∞ ∗ 〉〈 (3 62) (t)dt(t)x=(t)(t),x=[n]sϕ ϕ n,20n2,02− ∫ − ∞− Dar, revenind la definiţia (3 12), pentru j = -2, avem : 11− −− 1121− ϕ−ϕϕ (t)− nt2(2= =) n)t2(2( ) = n,2− 22 (3 63) 1− 1 ϕt2(= ) n,1− 2 Făcând în relaţia (3 28) schimbarea de variabilă : 1− t u2= se obţine : −− 1*111 −ϕ⋅ ϕ ∑ − u)2( kn2n1,k)u2(h= − k22 sau, pe baza relaţiei (3 29) : * ϕ⋅ϕ ∑ −−− k,1kn2n,2(u)h=(u)(3 64) k Înlocuind relaţia (3 64) în relaţia (3 62) se obţine : Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 48 ∗ ∞  *  = ϕ⋅ ∑ −− k,1kn202dt(t)h)t(x=]n[s ∫  k(3 65)  ∞− 〉ϕ〈= ∑ −− k,10kn2(t)),x(xh k şi astfel se poate scrie : (3 66) [k]sh=[n]s∑ − 1kn22⋅ k Se poate demonstra prin recurenţă că : ⋅ (3 67) [k]sh=[n]s∑ − 1jkn2j− k pentru orice j pozitiv Analizând membrul drept al relaţiei (3 67) se constată că : (3 68) ∗ − n2pp1jjh]p[s=[n]s= Cu alte cuvinte coeficienţii dezvoltărilor proiecţiilor semnalului x0(t) pe două subspaţii succesive V-j+1 şi V-j, adică sj-1[n] şi sj[n] se pot determina prin filtrare liniară cu filtrul cu răspuns la impuls hk şi prin decimare Ecuaţia (3 68) pune în eviden ţă un algoritm recursiv de calcul al coeficienţilor proiecţiei unui semnal pe diferitele subspaţii Vj , algoritm ce nu implică cunoaşterea explicită a funcţiilor bazelor din aceste spaţii Ea presupune însă ca fiind cunoscuţi coeficienţii s0[n], ai descompunerii semnalului în baza spaţiului V0 Deoarece aceştia pot fi calculaţi destul de greu, conform definiţiei (3 60), de cele mai multe ori, ei se consideră ca fiind eşantioane ale semnalului analizat: () s =[n] e00nTx unde Te reprezintă pasul de eşantionare ce permite o reconstrucţie exactă a semnalului x0(t) De această problemă a iniţializării algoritmului ne vom ocupa mai în detaliu într-un paragraf ulterior Rezultă, conform ecuaţiei recursive (3 68), că secvenţele sj[n] , j=1…M pot fi obţinute printr-o succesiune de filtrări numerice şi operaţii de decimare pornind de la secvenţa cunoscută s0[n] 3 1 1 4 Calculul coeficienţilor de proiecţie ai unui semnal pe subspaţiile Wj În continuare se stabileşte legătura între proiecţiile unui semnal x(t) din V0 pe subspaţii succesive Vj, Wj, j 0, oarecare, procedând prin recurenţă, se poate demonstra că : 〉ψ〈=⋅= )t(),t(x]k[sg]n[d(3 70) ∑ −−− n,j1jkn2j k Cu alte cuvinte coeficienţii dezvoltărilor proiecţiilor semnalului x(t) din V0 pe subspaţiile succesive W-j, dj[n], j=1,2,… se pot determina prin filtrare cu un filtru cu răspunsul la impuls gk urmată de o operaţie de decimare, a coeficienţilor de proiecţie sj-1[n] pe subspaţiile V-j-1 ale aceluiaşi semnal Se poate observa faptul că expresiile (3 67) şi (3 70) permit calculul iterativ al coeficienţilor de proiecţie sj[n] şi dj[n], j=1,2,… ai unui semnal x(t), în condiţiile în care sunt cunoscute coeficienţii s0[n], ai descompunerii semnalului în baza spaţiului V0 Cele două relaţii definesc o transformare a spaţiului de reprezentare al unui semnal extrem de eficientă, cunoscută în literatură sub denumirea de Transformarea Wavelet Discretă, DWT (Discrete Wavelet Transform), [Mal 89b] Această denumire se datorează faptului că valorile secvenţelor dj[n], definite conform (3 70), într-o analiză multirezoluţie ortogonală, reprezintă produsele scalare ale funcţiei analizate x(t) cu funcţiile bazelor ortonormale ale spaţiilor Wj Această definiţie poate fi extinsă pentru orice valoare întreagă a lui j, 〉ψ〈= (3 71) Zj)t(),t(x]n[d∈ n,jj∀ − ce poate fi privită ca o discretizare a unei reprezentări continue a semnalului x(t), denumită Transformarea Wavelet Continuă - CWT (Continuous Wavelet Transform), de forma: ( ) () () 〉ψ〈= t,txb,aCWT(3 72) b,ax − bt1  ψ⋅=ψ unde:() t(3 73)  b,a aa  ψ cu funcţia () , funcţia Wavelet mamă definită în teorema 3 2 Evident, reprezentarea (3 72) 0Wt∈ este o reprezentare redundantă a semnalului x(t), deci inutilă din punct de vedere al scopului urmărit - compresia semnalului Se costată, de asemenea, că versiunea discretizată, de forma (3 71), datorită faptului că mulţimea de funcţii  jj () () −ψ=ψ (3 74)  k,jkt22t   Zk,j∈ ℜ formează o bază ortonormală a spaţiului (), este una neredundantă, ce implică astfel o 2L transformare ortogonală a semnalului considerat Comparând expresiile (3 73) şi (3 74), se observă că discretizarea amintită presupune evaluarea (3 72) în punctele de forma: − jj− = (3 75) k2b,2a= Cum variabila a implică o rescalare a funcţiei Wavelet în timp ce b implică o translaţie în timp a ei, se observă că, discretizarea (3 75) implică paşi de discretizare diferiţi pentru diferitele valori ale factorului de scalare Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 50 3 1 1 5 Transformarea Wavelet Rapidă În cele două paragrafe anterioare (§3 1 1 3 şi §3 1 1 4 ) au fost stabilite legătura dintre proiecţiile succesive ale unui semnal x(t) din spaţiul V0 pe subspaţiile Vj, Wj, j J,j∈Z, o descompunere ortonormală a spaţiului () Z, ce formează, pentru orice J∈ 2L, verificarea relaţiei (3 97) ne permite eliminarea tuturor coeficienţilor de proiecţie pe spaţiile {Wj}j>J,j∈ Z, cu garantarea unei limite maxime a erorii de aproximare Astfel, ea permite o reducere semnificativă a numărului de coeficienţi ce trebuiesc păstraţi în vederea unei reconstrucţii “rezonabile” ξ Exponentul N în factorizarea (3 92) a funcţiei () 0m joacă un rol important în caracterizarea regularitatăţii atât a funcţiei de scară () cât şi a funcţiei Wavelet () Regularitatea Hölder tϕtψ maximă a acestora este N-1, dar în majoritatea cazurilor aceasta este mai redusă datorită influenţei ξ termenului () Q din (3 92) Astfel, pentru 0j≥ se poate defini secvenţa de măsuri: Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 58 j k () ξ= ∏ j2QsupB, ℜ∈ξ = 1k cu 1B= 0 Notând, pentru 0j>, 1 jjBlogb= 2logj ∈ξ∀ se poate spune că există o constantă C astfel încât pentru ℜ să avem: ∞ − − jbNk+ () () +≤ξ=ξϕ () ∏ 01C2mˆξ 1k= Această proprietate indică clar o regulatitate Hölder a funcţiei de scară () mai mică de N-1-bj tϕ Cum însă seria bj este una convergentă către un exponent b numit exponent critic, (binfb= j), 0j> proprietatea de mai sus poate fi rescrisă într-o formă mai compactă ε∀ există o constantă C astfel încât: Astfel, se poate spune că pentru 0> ε ε++− bN ξ+≤ξϕ () 1Cˆ () ε Evaluarea exponentului critic b este destul de dificilă în majoritatea cazurilor de funcţii Wavelet, expresii analitice existând în literatură doar pentru cazuri extreme sau pentru valori limită Spre exemplu, regularitate Hölder a funcţiilor Wavelet de tip Daubechies creşte cu creşterea lui N după o lege aproape liniară de forma N2075 0≈, pentru N suficient de mare Condiţiile (3 93) sunt denumite în literatură condiţiile lui Strang şi Fix şi constituie punctul de plecare în construcţia bazelor de funcţii Wavelet cu o anumită regularitate impusă 3 1 1 8 Funcţii Wavelet cu suport compact Într-o procedură de analiză Wavelet a unui semnal continuu x(t) apare frecvent cerinţa ca, pe lângă anumite proprietăţi specifice impuse funcţiilor analizante (cum sunt proprietăţile de moment (3 86)), această analiză să poată fi efectuată cât mai repede posibil cu o cantitate minimă de resurse implicate Cum însă această analiză presupune, în fond, calculul unor produse scalare de forma (3 71) prin utilizarea algoritmului FWT, cerinţa de mai sus este echivalentă cu o implementare eficientă a filtrărilor numerice implicate conform figurii 3 3 a Cea mai rapidă cale de filtrare este asigurată de utilizarea unor filtre cu răspuns finit la impuls, deci folosirea unor filtre de tip FIR ξξ (Finite Impulse Response) Astfel, se pune problema existenţei unor filtre () 0m şi ()1m ce implică un număr finit de coeficienţi hk şi respectiv gk Acest lucru implică, conform construcţiilor (3 54) şi (3 58), funcţii de scară şi respectiv funcţii Wavelet de suport compact Un avantaj imediat oferit de o astfel de analiză, este acela de bună localizare a evenimentelor temporale ale semnalului Însă, trebuie avut grijă ca această îmbunătăţire în localizarea temporală să nu deterioreze prea mult pe cea din domeniul frecvenţă (bineînţeles, în limitele incertitudinii lui Heisenberg) Să analizăm deci prima problemă, şi anume cea de existenţă a unor sisteme Wavelet cu suport compact sau, echivalent, sisteme QMF cu reconstrucţie perfectă, construite folosind filtre de tip FIR Un exemplu de funcţie Wavelet cu suport compact, ce poate genera un sistem Wavelet ortonormal, am mai întâlnit în această expunere, şi anume funcţia Wavelet de tip Haar Însă s-a văzut, de asemenea, că această funcţie are o descreştere spectrală invers proporţională cu frecvenţa (deci foarte slabă), fiind caracterizată doar de un moment nul (cel de ordin zero) Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 59 {} −ϕ La începutul paragrafului 3 1 am stabilit faptul că mulţimea () este o bază Zkkt∈ ortonormală a spaţiului V0 dacă este verificată condiţia (3 19) Această condiţie implică verificarea relaţiei (3 21) de către secvenţa de coeficienţi hk, ceea ce, conform definiţiei (3 49) a filtrului m0(ξ, ) se exprimă sub forma: 22 ()() ℜ∈ξ∀=π+ξ+ξ 1mm(3 98) oo Faptul că acest filtru este un filtru cu răspuns finit la impuls este echivalent cu faptul că ξ j ξ () 0m este un polinom trigonometric, deci este un polinom în variabila e În paragraful precedent am văzut că este util ca funcţiile Wavelet analizante să verifice anumite proprietăţi de regularitate sau de moment S-a stabilit faptul că o funcţie Wavelet cu N momente ξξ nule impune o serie de restricţii filtrelor () şi () şi, implicit, funcţiei de scară ce permite 0m1m construcţia acestui sistem Wavelet De remarcat sunt condiţiile (3 92), de factorizare a funcţiei ξ () 0m şi (3 94), cu privire la funcţia de scară, ce ne asigură faptul că orice polinom de grad mai mic decât N va aparţine spaţiului V0 Revenind la expresia (3 92), faptul că acest filtru este un filtru cu ξ răspuns finit la impuls este echivalent cu faptul că şi funcţia () Q este un polinom trigonometric, ξ j ξ deci şi aceasta este un polinom în variabila e În continuare se caută expresiile () 0m care corespund unor filtre de tip FIR şi care generează funcţii Wavelet cu N momente nule Conform (3 92) şi observaţiei anterioare se poate scrie: N2 − 2jξ + j2e1ξ () (3 99) () ξ 0eQm= 2 222/j2/j2/j2jξ −ξξ−ξ− () cos1eeee1ξ +ξ++ Dar:cos= == 2222 2N ξ+  j2cos1ξ () =ξ Deci:()  0eQm 2  2 ξ−ξ jjjξ ( ) = Cum () rezultă că ()va fi un polinom în variabila ξ sau, în mod eQe*QeQcos 2ξ echivalent, în sin 2 Se poate scrie, deci, 2 ξ   ξ 2j () = sinPeQ(3 100)   2   2ξ Notând cosy=, condiţia (3 98) devine: 2 NN −+− (3 101) ()()() 1yPy1y1Py= Se impune, de asemenea, condiţia: ∀≥ (3 102) () [] 1,0y,0yP∈ În concluzie, orice polinom P ce satisface (3 101) şi (3 102) va oferi o soluţie pentru polinomul ξ j () ξ eQ, conform (3 100), şi deci o soluţie pentru filtrul ()m 0 În legătură cu această problemă Ingrid Daubechies în [Dau 88] enunţă următoarea propoziţie: Propoziţia 3 1 ξ Orice polinom trigonometric () 0m ce verifică condiţia (3 98) este de forma: Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 60 N ξ− j   + ξ je1   () eQm =ξ () 0   2   cu ∈, N1≥şi unde Q este un polinom cu coeficienţi reali astfel încât: NN, − ξξ 11N2  ξ N2k2kj () ξ⋅+= cosRsinsinCeQ(3 103)  ∑ +− k1N 222  0k = unde R este un polinom impar Această propoziţie ne indică, de asemenea, care sunt soluţiile posibile ale polinomului ξ trigonometric () 0m ξξ jj Ne interesează însă polinomul () şi dispunem doar de modulul său () Problema eQeQ poate fi soluţionată utilizând o metodă denumită tehnica factorizării spectrale [Dau 88], [Tas 95b], [She 96], [Str 96a], [Tas 97], [Tas 98a], [Tas 98b] Aceasta presupune calculul zerourilor polinomului complex : 1N () () + (3 104) zRzzP− 2N − 1N kk = unde s-a notat:(), (3 105) zCzP ∑ +− k1NN = 0k un polinom de grad maxim N-1 ξ În concluzie, construcţia unui filtru () 0m presupune: - alegerea lui N, - alegerea unui polinom impar R, ξ j - găsirea polinomului () prin metoda mai sus menţionată eQ Funcţiile Wavelet ale lui Daubechies, DAU-N, deja menţionate în paragrafele anterioare, cu diverse ocazii, sunt funcţii cu N momente nule şi cu suport temporal de lungime minimă Cu alte ξ cuvinte, ele corespund la cele mai scurte filtre () care asigură numărul N de momente nule ale 0m funcţiilor Wavelet impuse Din acest considerent precum şi conform observaţiilor din paragraful precedent, ele se pretează la utilizarea lor în aplicaţiile de compresie a unei clase largi de semnale, ce prezintă o anumită regularitate, deoarece, pe lângă faptul că permit o aproximare bună a semnalului pe baza unui număr redus de coeficienţi ai descompunerii, ele oferă şi o implementare eficientă a dezvoltării (folosind algoritmul FWT) Conform (3 92) şi (3 103) filtru scurt înseamnă ξ un polinom trigonometric () 0m de grad minim Cum N este de obicei impus rămâne ca polinomul ξ j () eQ să fie ales de grad minim Acest lucru se asigură, conform (3 103), prin alegerea unui polinom 0R≡ Se obţin astfel diversele filtre Daubechies ortogonale Pentru o regularitate N va rezulta un filtru de lugime (minimă) 2N ξ O expresie alternativă a polinoamelor trigonometrice () ce verifică (3 98) precum şi condiţiile 0m = de existenţă () echivalente condiţiilor (3 8) şi (3 22b), este dată în [Naf 95] Astfel () ,0m,10m= 00π aceste condiţii sunt verificate de polinoame de forma: ξ−ξ+ξ+ cos1cos1cos12  () ξ⋅⋅⋅α+=ξ cosm+   10+ 222  (3 106) nn ξ−ξ+ cos1cos1  ⋅⋅⋅α+ cos+  nξ 22  Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 61 2 αξ∀≥ξ unde şirul {} trebuie să fie astfel încât () ,0m 0 1kk≥ Într-adevăr condiţia () este satisfăcută deoarece: 10m= 0 + cos1ξ 1= 2 ξ 0= − cos1ξ iar ceilalţi termeni se anulează, deoarece: 0=, 2 ξ 0= + cos1ξ este satisfăcută deoarece 0= în timp ce condiţia () 0m= 0π 2 π=ξ De asemenea, avem: ξ−ξ+ξ+ cos1cos1cos122  ()() ξ⋅⋅⋅α+=π+ξ+ξ cosmm+  100+ 222  nn ξ+ ξ−ξ− ξ− ξ+ cos1cos1cos1cos1cos1        ξ⋅ ⋅ ⋅α−++ξ⋅ ⋅ ⋅α+ cos cos−         1n+ 22222        nn ξ− ξ+ cos1cos1    ⋅α− ⋅ ξ⋅ 1 cos=     n+ 22    deci (3 106) verifică şi condiţia (3 98) Exemple: + =α a) Pentru ∈ se obţine: Zk,0 k + cos12ξ m= () 0ξ 2 2 () ( ) ξ−⋅ξ=ξ Se poate scrie însă: () Astfel, avem: 000mmm ξ−ξ jj + ee + 1 ξ−ξ jj2112 () ++==ξ−⋅ξ=ξ ()() ( ) 000eemmm 422 ξ Presupunând că () 0m este de forma: ξ− j β+α=ξ () 0em prin identificare, rezultă: − jξ e1+ () m= 0ξ 2 ξ Conform definiţiei (3 49) a lui () rezultă: 0m 2 hh= − 10= 2 iar relaţia (3 7) devine: ∞ 11 ()()()() −ϕ+ϕ=+ϕ=ϕ ∑ k1t2t2kt2h2t −∞= k22 () ϕ verificată de funcţia () ttχ )1,o[= S-a obţinut deci filtrul asociat funcţiei de scară corespunzătoare bazei Haar + cos1ξ b) Notând x= , (3 106) se poate scrie sub forma unui polinom P în variabila x : 2 Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 62 1nn2− () −⋅−α++⋅−⋅−α+−⋅−α+⋅= () ()( ) ()( ) ()( ) x1x2x1 x1x2x11x2x11xxP+ n21⋅ deoarece: − cos1ξ =ξ = şi x1− 1x2cos− 2 Pentru 1= se obţine: 1α 1nn22− () −⋅−α++⋅−⋅−α+−⋅= () ( ) ( ) ( ) ( ) x1x2x1 x1x2x1x23xxP+ n2⋅ α Pentru 2k,0≥, se obţine: k= 2 ( ) ⋅= () x23xxP− Este vorba despre o funcţie Wavelet cu două momente nule În această expresie recunoaştem filtrul de lungime minimă, deci expresia de mai sus corespunde filtrului denumit DAU-2 Într-adevăr, înlocuind notaţia x expresia devine: 2 ξ+ cos12   ξ−⋅ =ξ cos2m ()()   0 2   expresie ce se obţine şi conform propoziţiei 3 1 cu N=2 şi polinom0R≡ Prin procedura de factorizare spectrală se găseşte: ξ−ξ− jj  −+−+ ξ− j3131e1e1   +⋅⋅=ξ () 0em   2222   Se găsesc coeficienţii filtrului ca fiind: −++ 31333331− −∈===== {} 0,1,2,3\Zk0h,h,h,h,h− −−− k3210− 24242424 Se observă că acest filtru are doar 4 (2N) coeficienţi nenuli Funcţia de scalare (), cu suport compact, obţinută prin folosirea algoritmului în cascadă ce tϕ implementează (3 54), se prezintă în figura (3 8) Observaţie: procedura mai sus menţionată poate fi1 4 continuată prin recuren ţă Astfel se poate pune1 2 1 , să se condiţia ca, admiţând un parametru 0≠ 2α 30 8 obţină expresia x ca factor comun Bineînţeles, 0 6 astfel se va obţine filtrul Daubechies ce implică o 0 4 funcţie Wavelet cu trei momente nule, filtrul DAU-3 0 2 Condiţia impusă cere să se anuleze termenul liber al0 polinomului:-0 2 2-0 4 ()( ) α+− 1x2x1x23− 00 511 522 53 2− Se obţine 3=, şi un polinom P(x) de forma: 2α Figura 3 8 Funcţia de scară DAU-2 23 () −⋅= () x6x1510xxP+ 23  ξ+ξ+ξ+  2cos1cos1cos1  +−⋅=ξ Deci:()   061510m  222    ξ Prin factorizare spectrală se obţine expresia lui (), deci coeficienţii filtrului DAU-3 0m Funcţia de scară () (denumită DAU-3), corespunzătoare acestei situaţii, se prezintă în tϕ figura (3 9) Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 63 În mod similar, prin continuarea procedurii mai sus 1 4 prezentate, se pot obţine toate filtrele lui 1 2 Daubechies, DAU-N În literatura de specialitate 1 sunt descrise algoritmi de calcul ai coeficienţilor0 8 acestor filtre, ce implementează factorizarea0 6 spectrală implicată [Bou 94], [Tas 95b], [Tas 98b] 0 4 Tabelul 3 1 prezintă coeficienţii calculaţi ai filtrelor0 2 DAU-N pentru N pănâ la 11 În figura (3 10) se0 2 prezintă câteva exemple de funcţii de scară şi funcţii-0 -0 4 Wavelet Daubechies Se observă o creştere a00 511 522 533 544 55 3 9 Funcţia de scară DAU-3 regularităţii acestor funcţii cu creşterea ordinului N Figura Tabelul 3 1 Coeficienţii filtrelor DAU-N (N=2…11) Nk h-kNk h-k 200 482962913144900 038077947364 10 83651630373710 243834674613 20 22414386804220 604823123690 3-0 12940952255130 657288078051 300 33267055295040 133197385825 10 8068915093115-0 293273783279 20 4598775021186-0 096840783223 3-0 13501102001070 148540749338 4-0 08544127388280 030725681479 50 0352262918829-0 067632829061 400 230377813309100 000250947115 10 714846570553110 022361662124 20 63088076793012-0 004723204758 3-0 02798376941713-0 004281503682 4-0 187034811719140 001847646883 50 030841381836150 000230385764 60 03288301166716-0 000251963189 7-0 010597401785170 000039347320 500 1601023979741000 026670057901 10 60382926979710 188176800078 20 72430852843820 527201188932 30 13842814590130 688459039454 4-0 24229488706640 281172343661 5-0 0322448695855-0 249846424327 60 0775714938406-0 195946274377 7-0 00624149021370 127369340336 8-0 01258075199980 093057364604 90 0033357252859-0 071394147166 600 11154074335010-0 029457536822 10 494623890398110 033212674059 20 751133908021120 003606553567 30 31525035170913-0 010733175483 4-0 226264693965140 001395351747 5-0 129766867567150 001992405295 60 09750160558716-0 000685856695 70 02752286553017-0 000116466855 8-0 031582039318180 000093588670 90 00055384220119-0 000013264203 100 004777257511 11-0 001077301085 Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 64 Tabelul 3 1 Coeficienţii filtrelor DAU-N (N=2…11) Nk h-kNk h-k 700 0778520540851100 01869429776147 10 39653931948210 14406702115062 20 72913209084620 44989976435604 30 46978228740530 68568677491620 4-0 14390600392940 41196436894791 5-0 2240361849945-0 16227524502749 60 0713092192676-0 27423084681795 70 08061260915170 06604358819668 8-0 03802993693580 14981201246638 9-0 0165745416319-0 04647995511668 100 01255099855610-0 06643878569502 110 000429577973110 03133509021904 12-0 001801640704120 02084090436018 130 00035371380013-0 01536482090620 14-0 00334085887301 150 00492841765606 16-0 00030859285882 17-0 00089302325067 180 00024915252355 190 00005443907470 20-0 00003463498419 210 00000449427428 800 054415842243 10 312871590914 20 675630736297 30 585354683654 4-0 015829105256 5-0 284015542962 60 000472484574 70 128747426620 8-0 017369301002 9-0 044088253931 100 013981027917 110 008746094047 12-0 004870352993 13-0 000391740373 140 000675449406 15-0 000117476784 1 42 1 2 1 5 1 1 0 8 0 60 5 0 4 0 0 2 -0 5 0 -1 -0 2 -0 4-1 5 00 511 522 5300 511 522 53 a) Funcţia scară DAU-2 b) Funcţia Wavelet DAU-2 Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 65 1 21 5 1 1 0 8 0 6 0 5 0 4 0 0 2 0 -0 5 -0 2 -0 4-1 0123456701234567 c) Funcţia scară DAU-4 d) Funcţia Wavelet DAU-4 1 21 5 1 1 0 8 0 60 5 0 4 0 0 2 0-0 5 -0 2 -1 -0 4 -0 6-1 5 0246810121402468101214 e) Funcţia scară DAU-7 f) Funcţia Wavelet DAU-7 11 0 5 0 5 0 -0 5 0 -1 -0 5-1 5 0246810121416182002468101214161820 g) Funcţia scară DAU-10 h) Funcţia Wavelet DAU-10 Figura 3 10 Exemple de funcţii de scară şi funcţii Wavelet DAU-N, a),b): N=2, c),d): N=4, e),f):N=7, g),h): N=10 Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 66 În paragraful 3 1 1 6 a fost prezentată analogia dintre algoritmul FWT indus de o analiză multirezoluţie ortogonală şi codarea în subbenzi folosind filtre QMF cu reconstrucţie perfectă Acest lucru ne permite tragerea unor concluzii, cu privire la funcţiile Wavelet cu suport compact, bazate pe anumite rezultate remarcabile obţinute în studiul filtrelor de tip FIR QMF cu reconstrucţie perfectă Astfel Vaidyanathan prezintă, într-o serie de lucrări ale sale, dintre care amintim [Vai 87] şi [Vai 88], o parametrizare a băncilor de filtre pe două căi cu reconstrucţie perfectă realizate cu filtre de tip FIR Această parametrizare, prin analaogia mai sus amintită, poate fi extinsă la toate sistemele Wavelet ortonormale ce implică funcţii Wavelet cu suport compact În această prezentare am mai întâlnit două asemenea parametrizări, una dată de propoziţia 3 1, cea a lui Daubechies şi o a doua dată de expresia (3 106) Propunerea lui Vaidyanathan se referă la filtre de analiză de lungime pară arbitrară (dar finită), notată 2M Notând cu H(z) transformata Z a secvenţei coeficienţilor filtrului hk, − 1M2 − k () = ∑ kzhzH(3 107) = 0k se poate scrie: 212− () () = () 10zHzzHzH+ cu: − 1M − k = ∑ k20zhH(3 108a) = 0k − 1M − k = ∑ + 1k21zhH(3 108b) = 0k Considerând definiţii similare relaţiilor (3 108a) şi (3 108b) ale unor funcţii ()şi (), însă pe zGzG 01 baza secvenţei gk, construite conform (3 37), şi formând matricea, denumită matricea polifază : zHzH () ()   10 zH(3 109) = () p   () () zGzG 10   Vaidyanathan demonstrează că aceasta poate fi factorizată conform: () ()  10zHzH == () pzH   () () 10zGzG   (3 110) 1M −      ii00sc01sc   ⋅ ⋅= ∏     − 1   − −     = 1iii00csz0cs   unde: =α= (3 111) iiiisinscoscα O factorizare de forma (3 110) generează toate băncile de filtre ortogonale cu reconstrucţie perfectă pe două căi construite cu filtre de tip FIR cu lungime 2M Cu alte cuvinte, toate sistemele QMF cu reconstrucţie perfectă, construite cu filtre de tip FIR cu lungime 2M, pot fi caracterizate în termenii π a M parametri α ) 2,0 Conform concluziilor paragrafului 3 1 1 6, i cu valori cuprinse în domeniu [ un sistem QMF cu reconstrucţie perfectă corespunde unui sistem Wavelet ortonormal dacă este verificată condiţia (3 8) Acest lucru implică o restricţie de forma, [Vet 92], [She 98]: − 1M π =α ∑ i(3 112) = 0i4 Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 67 Astfel spaţiul sistemelor Wavelet ortonormale cu suport compact, ce corespund unor filtre de lungime 2M poate fi parametrizat printr-un număr de M-1 parametri unghiulari α, cel al M-lea i rezultând din condiţia (3 112) Cele două parametrizări anterioare, cea a lui Daubechies şi cea dată de (3 106), prezintă dezavantajul că presupun o metodă de identificare a coeficienţilor filtrului ce implică o procedură de factorizare spectrală Această procedură presupune însă găsirea rădăcinilor unor polinoame şi sinteza altora, operaţii ce implică un volum mare de calcul, pe de o parte, iar pe de altă parte factorizarea nu este unică, pentru un N mare există un număr destul de mare de variante posibile de sinteză (prin asignarea corespunzătoare a rădăcinilor găsite), lucru ce îngreunează găsirea unei soluţii adecvate Sherlock şi Monro, în [She 98], prezintă un algoritm rapid de calcul a coeficienţilor filtrului H(z) bazat pe factorizarea (3 110) Reconsiderând expresia (3 110) sub forma:      kkk1ksc01 ()() +   () ⋅= ⋅ ()    − 1ppzHzH(3 113)   − kkcsz0      ei deduc un algoritm recursiv de calcul ce permite calculul rapid al coeficienţilor unui filtru de lungime 2(k+1) dacă sunt cunoscuţi coeficienţii unui filtru de lungime 2k Astfel, pornind cu k=1, prin recursie, se calculează coeficienţii unor filtre cu lungimi superioare, prin introducerea, la fiecare pas, a câte unui nou parametru unghiular α Dacă se doreşte obţinerea unui filtru de i lungime 2M corespunzător unui sistem Wavelet ortonormal, în ultima iteraţie a algoritmului se va introduce un parametru α ce verifică (3 112) Tot ei arată că, de fapt, parametrizarea amintită 1M− este redundantă, deorece acest spaţiu al sistemelor Wavelet ortonormale cu suport compact, ce π corespund unor filtre de lungime 2M, cu parametri α ) 2,0, i cu valori cuprinse în domeniu [ prezintă anumite simetrii Astfel, de exemplu, dacă pentru orice sistem (3 110) un număr par de α coeficienţi α se schimbă în π filtrele obţinute vor fi aceleaşi În cazul sistemelor Wavelet, i+i deci care verifică şi (3 112), acest lucru va avea loc la orice schimbare de parametru din α i în π+απ ) ,0 De i Astfel , cei M-1 parametri ai unui sistem Wavelet trebuie să fie din domeniul [ multe ori, versiunile oglindite ale unor funcţii Wavelet, ce prezintă aceleaşi proprietăţi ca şi cele originale, sunt privite ca fiind similare Este util deci, ca astfel de sisteme să fie excluse din acest α spaţiu Acest lucru este asigurat de considerarea unui parametru [ ) 2/,0π − 2M∈ În concluzie, spaţiul sistemelor Wavelet ortonormale cu suport compact, ce corespund unor filtre de lungime 2M poate fi parametrizat printr-un număr de M-1 parametri unghiulari α, cu i π∈απ∈α şi [ )) [ 3M 0i,,0−2/,0 i=2M− Exemple h1Coeficientul h2a) În figura 3 11 se prezintăCoeficientul 11 valorile coeficienţilor filtrelor 0 50 5 generatoare de spaţii Wavelet ortonormale, parametrizate prin 00 intermediul unui singur -0 5-0 5 parametru independent,050100150200050100150200 P aram etrul A lpha0 (grade)P aram etrul A lpha0 (grade) π∈α ) [ h3Coeficientul h4,0 Rezultă filtre deCoeficientul 11 0 lungime 2M=4 (figura a fost 0 50 5 obţinută prin implementarea Matlab a algoritmului propus de00 Sherlock şi Monro în [She 98]) -0 5-0 5 050100150200050100150200 P aram etrul A lpha0 (grade)P aram etrul A lpha0 (grade) Figura 3 11 Spaţiul coeficienţilor filtrelor generatoare de sisteme Wavelet ortonormale, de tip FIR, de lungime L=4 Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 68 b) În figura 3 12 se prezintă valorile coeficieţilor filtrelor generatoare de spaţii Wavelet π∈απ∈α ortonormale, spaţii parametrizate prin doi parametri independenţi, [ şi [ )) ,02/,0 01 Rezultă filtre ce au o lungime de 2M=6 Coeficientul h1Coeficientul h2Coeficientul h3 505050 100100100 150150150 Parametrul Alpha0 (grade)Parametrul Alpha0 (grade)Parametrul Alpha0 (grade) 204060802040608020406080 Param etrul Alpha1 (grade)Param etrul Alpha1 (grade)Param etrul Alpha1 (grade) Coeficientul h4Coeficientul h5Coeficientul h6 505050 100100100 150150150 Parametrul Alpha0 (grade)Parametrul Alpha0 (grade)Parametrul Alpha0 (grade) 204060802040608020406080 Param etrul Alpha1 (grade)Param etrul Alpha1 (grade)Param etrul Alpha1 (grade) Figura 3 12 Spaţiul coeficienţilor filtrelor de tip FIR cu L=6, generatoare de sisteme Wavelet ortonormale Un exemplu de implementare Maple a algoritmului propus de Sherlock şi Monro se găseşte descris de către Selesnik în [Sel 97] 3 1 1 9 Localizarea timp-frecvenţă a descompunerilor în baze de funcţii Wavelet În prezentul paragraf se va introduce noţiunea de localizare timp-frecvenţă a unei funcţii, se va indica modul în care aceste proprietăţi se implică în analiza eficientă a unor clase larg de semnale şi vor fi prezentate metode de construcţie de sisteme Wavelet a căror construcţie este ghidată de aceste proprietăţi De fapt, această noţiune de localizare timp-frecvenţă acoperă proprietatea unor funcţii de a fi cu localizare bună atât în domeniul timp cât şi în domeniul frecvenţă Această idee a fost introdusă deja la începutul acestui capitol, în momentul definirii bazelor timp-frecvenţă Justificarea căutării în mod special a unor asemenea baze, sau cel puţin a scoaterii în evidenţă a acestor proprietăţi la anumite baze deja construite, este făcută pe baza celor afirmate despre sistemele Wavelet în paragrafele anterioare Astfel, la începutul acestui capitol s-a argumentat în favoarea unor baze care permit localizarea, cu o oarecare precizie, atât a unor evenimente temporale cât şi a celor din domeniu frecvenţă în mod simultan Apoi, construind sisteme Wavelet ortonormale, bazate pe definiţia 3 1 a analizei multirezoluţie, s-a ajuns la algoritmul FWT, o metodă eficientă de calcul iterativ a coeficienţilor descompunerii unui semnal într-o bază Wavelet În §3 1 1 6 s-a arătat că acest algoritm este echivalent cu un sistem de codare în subbenzi cu reconstrucţie perfectă Această imagine ne sugerează faptul că sistemul Wavelet astfel construit este capabil de o localizare frecvenţială, în limitele subbenzilor caracteristice echivalente, a semnalului analizat Apoi, în §3 1 1 8, motivat de obţinerea unui algoritm cât mai rapid şi mai eficient, s-au construit funcţii Wavelet cu suport compact, mai mult, s-au prezentat metode diferite de Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 69 caracterizare (parametrizare) a spaţiului de sisteme Wavelet cu suport compact S-a văzut, de asemenea, că acest spaţiu include un număr foarte mare de sisteme Wavelet, unele verificând anumite proprietăţi suplimentare de regularitate sau momente nule (introduse în §3 1 1 7) Această imagine a sistemelor Wavelet scoate în evidenţă, în mod inerent, anumite proprietăţi de localizare temporală ale lor (verificate cu siguranţă de funcţiile Wavelet cu suport compact dar şi de altele cu descreştere temporală rapidă) Este utilă, deci, încercarea de a caracteriza sistemele Wavelet printr-o imagine combinată, una ce ţine cont în acelaşi timp de proprietatea de localizare frecvenţială şi de cea de localizare temporală Această imagine, prin modul ei de construcţie, ţine cont de cele două variabile implicate: variabila timp şi variabila frecven ţă Ea se stabileşte astfel într-un plan, denumit planul timp-frecven ţă În cele ce urmează vor fi introduse diferite măsuri ale localizării timp- frecven ţă ale unor funcţii, vor fi studiate efectele unor operatori (cum sunt cei de translaţie în timp şi respectiv în frecvenţă sau cel de rescalare), se va introduce noţiunea de rezoluţie de acoperire timp-frecven ţă a unei baze de funcţii, exemplificată, pentru cazul special al funcţiilor Wavelet cu proprietăţi bune de localizare timp-frecvenţă De asemenea, vor fi indicate, prin exemple simple, metode eficiente de analiză Wavelet bazate pe aceste proprietăţi de localizare timp-frecvenţă bună, va fi indicată o procedură de construcţie a sistemelor Wavelet impunând restricţia verificării unor asemenea proprietăţi Să considerăm cazul unei descompuneri liniare a unui semnal după o bază Proprietăţile de localizare ale semnalului analizat se pot stabili cu rezoluţia oferită de funcţiile bazei Deci, o întrebare esenţială ce se poate pune este: ce proprietăţi de localizare au funcţiile bazei în planul timp-frecven ţă ? De exemplu, descompunerea Fourier este o descompunere liniară după o familie de funcţii armonice Aceste funcţii permit o localizare perfectă în frecven ţă dar nu oferă nici un fel de localizare în domeniul timp (fiind unde cu suport temporal infinit) Proprietăţile transformării Fourier nu permit ca un semnal să fie cu suport compact atât în domeniul timp cât şi în domeniul frecven ţă Acest lucru înseamnă că, practic, întinderea semnalului în planul timp-frecven ţă este (cel puţin după una din cele două variabile) nelimitată Există mai multe căi de a defini localizarea oferită de o anumită funcţie În general toate aceste căi presupun definirea unei măsuri a întinderii în timp sau în frecvenţă a acelei funcţii De exemplu, am putea defini ca şi măsuri ale întinderii temporale respectiv frecvenţiale intervalele I şi I care conţin 90% din energia semnalului în cele tξ două domenii vizate, intervale ce sunt centrate în jurul centrelor de greutate ale semnalelor x(t)2 şi 2 () xˆξ Itξ Iξ 2 () xˆξ t 2 () tx Figura 3 13 Acoperirea timp-frecvenţă a unui semnal x(t) Figura 3 13 prezintă "acoperirea" oferită de semnalul x(t) în planul timp-frecvenţă utilizând măsurile definite mai sus Pentru simplitate am presupus că funcţia este una analitică (ne-considerând frecvenţele negative) În multe cazuri practice semnalul suferă anumite modificări în urma acţiunii unor operatori asupra sa De cele mai multe ori aceste operaţii sunt operaţii simple de translaţie, modulare sau scalare Se constată că o translatare în timp a semnalului cu t0 va rezulta în deplasarea acoperirii Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 70 timp-frecven ţă de-a lungul axei timp cu cantitatea t0 În mod similar o modulare a semnalului, deci tjξ înmulţirea sa cu 0e, va deplasa suportul timp-frecvenţă cu cantitatea ξ de-a lungul axei 0 frecven ţă O operaţie de scalare cu un factor a, deci considerarea unei funcţii x'(t)=x(at), va rezulta în rescalarea întinderilor temporale respectiv frecvenţiale ale semnalului, astfel: 1 ⋅== Ia'II'I(3 114) ξξ tt a În acest caz se schimbă atât forma cât şi localizarea acoperirii timp-frecvenţă tjξ x(t)ξ ξ txet"xo= () () 6ξ 0 5ξ 0 4ξ 0 = () ( ) () txξ 0ttxt'x− 0 3ξ 0 x’(t)=x(t/3) 2ξ 0 t0 ξ 0 tt t0 2t0 3t0 4t0 5t0 6t0 7t0 8t0 a)b) Figura 3 14 Efectul unor operaţii elementare asupra acoperirii timp-frecvenţă a unui semnal x(t), a) translaţie şi modulare b) scalare (a=1/3) Observaţii: a) Conform figurii 3 12 b, pentru valori mici ale variabilei de scalare a vom avea funcţii cu suport frecvenţial îngust (suport temporal întins) şi invers b) Toate operaţiile elementare puse în discuţie conservă aria suportului timp-frecvenţă al semnalului (zonele haşurate au arii egale) Aria acoperirii timp-frecvenţă defineşte rezoluţia de localizare timp-frecven ţă oferită de funcţia respectivă Având în vedere restricţiile impuse de dualitatea Fourier este interesant să analizăm condiţiile unei rezoluţii maxime de localizare, deci a unei acoperiri minime Un răspuns la această problemă a fost indicat la începutul acestui capitol Astfel, principiul Heisenberg-Gabor, definit conform ecuaţiei (3 6) pune în evidenţă o limită inferioară caracteristică ∆ şi ξ implicate în inegalitatea (3 6) nu unei funcţii, în termenii măsurilor (3 4) şi (3 5) Măsurile t∆ sunt identice cu mărimile I şi respectiv I definite mai sus Însă şi aceste măsuri se bucură de tξ proprietăţile de invarian ţă în raport cu operaţiile de translaţie, modulare şi respectiv de rescalare a semnalului (conform figurii 3 13 şi a relaţiilor 3 114) Am văzut, de asemenea, că funcţiile Wavelet pot genera descompuneri ortogonale ale ℜ spaţiului () 2L Funcţia Wavelet mamă poate fi construită, conform (3 58), pornind de la o funcţie de scară Funcţiile Wavelet ale bazei se definesc conform (3 17) Rezoluţia oferită în analiza timp- frecven ţă a unui semnal de către aceste funcţii presupune caracterizarea acoperirii lor timp- frecven ţă Pentru generalitate, este util să fie considerată mulţimea redundantă de funcţii (3 73), deci elementele unei baze Wavelet continue Aceste funcţii, fiind versiuni rescalate şi translatate ale funcţiei Wavelet mamă, sunt indexate după două variabile continue: a - variabila de scară şi b - variabila de translaţie temporală Evident, elementele bazei Wavelet ortogonale sunt date de funcţiile () tψ k,j obţinute prin discretizarea de forma (3 75) a acestor variabile În acest caz, datorită rescalării, acoperirea oferită în planul timp-frecvenţă de funcţiile bazei Wavelet va fi variabilă - dependentă de factorul de scară a Astfel pentru valori a mici funcţiile () tψ b,a vor fi mai scurte şi de frecvenţe ridicate în timp ce pentru valori a mari aceste funcţii vor fi Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 71 lungi şi de joasă frecven ţă (conform figurii 3 14, cu observaţia că în acest caz rescalarea se face cu -1 factorul a) ξ 0 În cazul unei funcţii wavelet centrată în jurul unei frecvenţe ξ, introducând notaţia =, 0a ξ se obţine varianta timp-frecvenţă a acestei funcţii:   − bt1   () ψ⋅=ψ ξ⋅ ξ b,t(3 115)   ξ ξ 00   ξ Introducând expresia obţinută în (3 72) se obţine reprezentarea timp-frecvenţă asociată transformării Wavelet continue a unui semnal x(t) : 〉ψ〈=ξ ( ) () () t,tx,bCWT(3 116) b,x ξ Relaţia de incertitudine Heisenberg-Gabor, (3 6), se impune şi în acest caz, dar ea devine parametrizată Astfel, notând cu ∆ şi ξ întinderile temporală şi, respectiv frecvenţială ale t∆ ψψ funcţiei Wavelet mamă () , definite conform (3 4) şi (3 5), cele ale funcţiilor Wavelet () tψ tψ b,ξ derivate vor fi: ξ 0 () ∆=ξ∆ tt(3 117) ψψ ξ b, ξ ξ (3 118) () ξ∆=ξξ∆ ψψ ξ b, ξ 0 Relaţia de incertitudine Heisenberg-Gabor a unei funcţii ()se scrie sub forma: tψ b,ξ 1 () () ξ∆⋅∆=ξξ∆ξ⋅∆ (3 119) tt≥ ψψψψ ξ 2b,b,ξ Acest lucru se datorează faptului că transformarea Wavelet presupune operaţia de rescalare ξ 0 cu factorul =, operaţie ce modifică atât lungimea efectivă cât şi banda efectivă a funcţiei a ξ Wavelet implicată Considerând semnalul de test x(t) de forma: tjtjξ 21ξ +−δ+−δ= (3 120) ()()() 11eetttttx+ vom constata, (figura 3 15), acest efect al () ξξ∆ ξ ψ rescalării în planul timp-frecvenţă Se2b,ξ observă că localizarea în timp se ξ 2 îmbunătăţeşte cu creşterea lui ξ iar localizarea în frecvenţă scade pe măsură () ∆ 2tξ ψ De fapt, considerând impulsul Diracb,ξ 1 δ trasformata sa CWT este:ξ () 0tt− () ξξ∆ ψ *1b,ξ () ( ) () () =ψ=〉ψ−δ〈=ξ ∆ ξξ 0b,b,0tt,tt,bCWT() ψ 1tξ δ b,ξ  − ξ 0*bt   ξ⋅ψ⋅ t(3 121)t1t2   ξξ 3 15 Suportul reprezentării CWT al semnalului00Figura   (3 120)- o versiune rescalată şi normată a funcţieitest Wavelet, oglindită şi centrată în momentul t 0 În privinţa localizării în frecvenţă să considerăm funcţia Wavelet a lui Shannon, corespunzătoare funcţiei de scară sinus-cardinal, Sinc(t), (ce corespunde unui filtru trece-jos ideal) Acest caz este prezentat în figura 3 16 Modulul transformării Fourier a acesteia este unitar pentru π tjξ π≤ξ≤ Considerând un semnal de forma 0e, funcţia Wavelet de frecvenţe ridicate care încă 2 Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 72 1 “lasă să treacă” semnalul corespunde unui factor de scară a=, în timp ce funcţia Wavelet de min 02ξ 1 joasă frecvenţă care permite “trecerea” semnalului are factor de scară a= max 0ξ t ˆ ξψ () 1/2ξ 0 −ξδ () 0ξ () ξ⋅ψ maxmaxaˆa () ξ⋅ψ 0 minminaˆa 2/ξ 1 ξ 0ξ = a ξ /2 π π ξ 0/2 ξ0 2ξ0 a) b) Figura 3 16 Localizarea în frecvenţă a funcţiei Wavelet de tip Shannon Observaţie: Localizarea în frecvenţă se deteriorează cu creşterea frecvenţei ξ Figura 3 15 pune în eviden ţă o proprietate foarte importantă a transformării Wavelet, şi anume proprietatea de a permite o localizare temporală arbitrar de bună (bineînţeles pe seama localizării frecvenţiale) Aceasta permite o caracterizare a regularităţii locale a semnalului supus analizei Trebuie să menţionăm faptul că descreşterea în domeniul transformatei Fourier a unui semnal oferă o măsură a regularităţii globale a acestui semnal şi nu spune mai nimic despre comportamentul local al acestuia De exemplu, o singură discontinuitate a unui semnal continuu în celelalte puncte va crea o descreştere de ordin ξ 1 în spectru Transformarea Wavelet Continuă, în schimb, datorită proprietăţii mai sus amintite, va izola discontinuitatea de restul funcţiei, iar comportamentul din domeniul transformat într-o vecinătate a acesteia, o va caracteriza Acest lucru, este foarte important din punct de vedere al compresiei unui semnal nestaţionar Se poate găsi un nivel de rezoluţie al analizei astfel încât o nestaţionaritate (temporală sau frecvenţială) să influenţeze un număr minim de coeficienţi ai descompunerii din vecinătatea punctului de nestaţionaritate considerat Figura 3 17 pune în eviden ţă (t-t0) δ σ (t-t0) proprietăţile de localizare temporale ale funcţiilor "wavelet" de tip Haar t t[Vet 95] Se observă (figura 3 17b) că t0 t0zona de influenţă în domeniul t0 - a0/2 t0 +a0/2 t0 - a0/2 t0 +a0/2 transformat al unei discontinuităţi are tt o lăţime a la o scară a a analizei, iar 00 1 valoarea maximă a coeficienţilor a a0 a00 descompunerii este proporţională cu a acest a 0 02 aÎn concluzie, regularitatea unui a semnal poate fi caracterizată pe baza a) b) 3 17 Proprietăţile de localizare temporală ale funcţiei Haardescreşterii coeficienţilor în domeniulFigura transformat Se arată, [Vet 95], că această proprietate de caracterizare a regularităţii locale se poate generaliza la caracterizarea regularităţii locale de ordin superior Acest lucru impune însă, conform Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 73 concluziilor paragrafului 3 1 1 7, ca gradul de regularitate al funcţiei Wavelet utilizat să fie corelat cu cel al semnalului de analizat Considerând descompunerea unui semnal x(t) într-o bază Wavelet ortogonală, de forma: 〉ψ〈= (3 122) () () () () tt,txtxψ ∑∑ k,jk,j⋅ jk imaginea timp frecvenţă asociată poate fi cea din figura 3 18 Diferitele dreptunghiuri corespund ξ acoperirilor diferitelor funcţii Wavelet ale acestei baze Ele definesc “celulele de rezoluţie" ale acestor funcţii Din acest motiv aceste funcţii mai sunt denumite şi atomi timp- frecven ţă Celulele sunt adiacente (de fapt, în realitate ele depind de măsurile întinderilor temporale şi frecvenţiale folosite şi sunt parţial t suprapuse dacă se folosesc măsurile (3 117) şi Figura 3 18 Poziţia timp-frecvenţă a coeficienţilor unei (3 118)), şi oferă o acoperire completă a descompuneri Wavelet planului Punctele din centrele acestor celule indică localizarea timp-frecvenţă a valorilor reprezentării, deci localizarea coeficienţilor () () 〉ψ〈 t,tx ai descompunerii Similar cazului continuu şi această figură pune în eviden ţă o k,j îmbunătăţire a localizării temporale cu creşterea frecvenţei ξ şi o scădere pe măsură în localizarea frecvenţială Deosebirea faţă de cazul continuu constă în faptul că aceste proprietăţi de localizare sunt “cuantificate”, indexabile după variabila discretă j ce indică nivelul de rezoluţie Astfel, de δ exemplu, în cazul distribuţiei Dirac() obţinem o reprezentare timp-frecven ţă cu coeficienţi 0tt− nenuli în zonele (celulele) haşurate din figura 3 18 Să analizăm mai în detaliu aceste proprietăţi de localizare ale funcţiilor unei baze ortogonale Wavelet este centrată în jurul momentului de timp t=0, în domeniul Dacă funcţia Wavelet mamă () tψ timp, şi în jurul frecvenţei ξ vor fi 0, în domeniul frecvenţă, atunci funcţiile Wavelet derivate k,jψ j j− ±=ξ = centrate în jurul momentelor de timp 2kt⋅ şi în jurul frecvenţelor 2ξ Acest lucru 0⋅ 〉ψ〈 () înseamnă că produsul scalar () t,tx va reprezenta conţinutul informaţional al semnalului x(t) k,j jj− ) ( ⋅=ξ din acest plan Dacă funcţia x(t) este bine localizată în planul în jurul punctului () 02,2k,tξ timp-frecven ţă (dacă îşi concentrează energia în mare măsură) în domeniul ξ∪ξ−ξ−×− , atunci pentru o aproximare foarte bună a semnalului ajunge să () [][ ][ ] 2112,,T,Tξ jj− ()() ⋅=ξ 〉ψ〈 considerăm doar valorile () sunt incluse sau t,tx pentru care punctele ( k,j)02,2k,tξ sunt foarte aproape de acest domeniu Ne interesează comportamentul unui semnal x(t) în jurul punctului t=t, analiza făcându-se 0 () 〉ψ〈 la o scară j Se pune întrebarea ce valori () t,tx vor conţine informaţii despre semnal în acest k,j punct t, deci ce domeniu (j,k) constituie suportul informaţional al comportamenului semnalului x(t) 0 în jurul acestui punct Presupunând că funcţia wavelet () este cu suport compact inclus în tψ intervalul [-n, n], rezultă un suport [-n2-j, n2-j] al funcţiilor Wavelet () iar suporturile 1212t0,jψ Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 74 funcţiilor () vor fi de forma [(-n+k) 2-j, (n+k) 2-j] Astfel la o scară j coeficienţii wavelet tψ k,j12 (indexaţi după k) ce verifică: − jj− ≤≤+− (3 123) () () 2012knt2kn+ vor fi influenţaţi de valoarea lui x(t) în punctul t Inegalitatea (3 123) se poate rescrie ca: 0 jj ≤≤− (3 124) 1020nt2knt2+ Regiunea de influenţă din relaţia (3 124) este pusă în evidenţă în figura 3 19 O problemă similară ce ne-ar puteaξ j=2 interesa se poate formula în următorul mod: considerând un coeficient al descompunerii Wavelet într-un punct indexat (j,k) al planului 00j=1 timp-frecven ţă asociat să vedem ce regiune a semnalului contribuie la valoarea coeficientului t considerat Considerând din nou cazul de maij=0 t0-n1t0+n2t0 sus, al funcţiilor Wavelet cu suport compact, se deduce că această regiune de influenţă are j=-1 expresia: − 00jj− Figura 3 19 Regiunea de influenţă în planul ≤≤+− () () 02012knt2kn+ timp-frecvenţă a unei valori x(t0) (3 125) Se observă faptul că este posibilă o punere în eviden ţă a unui fenomen local, rezoluţia de localizare depinzând de scara j la care se face analiza Bineânţeles, având în vedere inegalitatea Heisenberg-Gabor, această facilitate de localizare din ce în ce mai bună în domeniul timp se asociază cu o localizare frecvenţială din ce în ce mai slabă Să analizăm aceste proprietăţi de localizare în domeniul frecvenţă se anulează în domeniul frecvenţă în afara unui interval Presupunând că funcţia Wavelet () tψ jj ξ⋅ξ⋅ξ , la o scară j suportul frecvenţial al semnalului () este [] Astfel, tψ [] maxmin,ξk,jmaxmin2,2 o componentă frecvenţială de frecvenţa ξ 0 va influenţa descompunerea Wavelet la scara j dacă: jj ξ≤ξ≤⋅ξ (3 126) max0min22⋅ deci vor fi influenţate scările: ξ maxminξ ≤≤− (3 127) 22logjlog− ξ 00ξ ξ Acest lucru se pune în evidenţă înj=2 figura 3 20 Din (3 126) rezultă că la o scară valorile descompunerii Wavelet sunt 0jj= j=1 influenţate de componentele frecvenţiale ce se încadrează în intrevalul: t 00jjj=0 ξ≤ξ≤⋅ξ maxmin22⋅ În concluzie se poate observa că proprietăţile de localizare în domeniul timp, j=-1 respectiv frecven ţă sunt dependente de Figura 3 20 Regiunea de influenţă în planul timp-frecvenţă a factorul de scară la care se face analiza, o unei componentă frecvenţială ξ ξ ξξ 0 îmbunătăţire a localizării temporale Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 75 implicând în mod obligatoriu o scădere a rezoluţiei de localizare frecvenţială O altă problemă, enunţată la începutul acestui paragraf, este considerarea anumitor proprietăţi de localizare timp-frecvenţă ale unui sistem Wavelet în faza de proiectare, deci la construcţia acestuia Impunerea unei anumite “forme” a acoperirii în planul timp-frecvenţă a unei poate fi utilă deoarece aceasta determină selectivitatea atât temporală cât şi funcţii Wavelet () tψ frecvenţială a unei descompuneri Wavelet O asemenea proprietate poate fi utilă în analiza unor semnale foarte variate, în special în cazul semnalelor nestaţionare Este şi cazul semnalelor audio, a căror prelucrare (compresie) este unul dintre scopurile acestei lucrări Este aşa deoarece sistemul auditiv uman se caracterizează, la rândul său, prin aceste proprietăţi de selectivitate El este sensibil atât la decalaje temporale (selectivitate temporală) cât şi la tonalităţi diferite (selectivitate frecvenţială) În plus şi acest sistem poate fi caracterizat printr-o limită inferioară a celor două selectivităţi Aceste caracteristici par să justifice utilizarea unei reprezentări timp frecvenţă în prelucrarea (deci şi compresia) acestui tip de semnal, de exemplu, reprezentări de tip Wavelet sau reprezentări cu proprietăţi similare acestora În aceste cazuri eroarea de aproximare a reprezentării (de exemplu, eroarea de cuantizare a coeficienţilor) va fi legată, într-o manieră mai directă, de eroarea percepută de urechea umană (o măsură subiectivă, nemăsurabilă) Revenind la problema construcţiei sistemelor Wavelet, în §3 1 1 8 a fost prezentată o parametrizare a spaţiului sistemelor Wavelet cu suport compact S-a dedus faptul că acest spaţiu poate fi caracterizat mai simplu în termenii filtrelor numerice implicate, deci în funcţie de valorile posibile ale secvenţei hk din ecuaţia (3 7) S-a ajuns la concluzia că parametrizarea acestui spaţiu a sistemelor Wavelet cu suport compact poate fi făcută în funcţie de lungimea 2M a filtrelor numerice implicate, prin considerarea π∈α şi unui număr de M-1 parametri unghiulari α ) 3M 0i,,0− i independenţi, cu [i= α Numărul combinaţiilor posibile este infinit, fiind implicate intervale de valori ) [ 2/,0π − 2M∈ continue Ne propunem să găsim o cale de a introduce o cerinţă (o restricţie) de verificare de către funcţia Wavelet obţinută a unor proprietăţi de localizare timp-frecvenţă Impunerea unor asemenea ∆⋅∆ proprietăţi este aproape echivalentă cu cerinţa unui produs ξ cât mai aproape de limita t ψψ inferioară dată de criteriul de incertitudine Heisenberg-Gabor, conform inegalităţii (3 6) Însă această cerin ţă, după expresia implicată, are în vedere doar aria acoperirii timp-frecvenţă ce poate fi obţinută pentru un număr foarte mare de combinaţii de valori ale celor două măsuri implicate În figura 3 18 se prezintă acest caz pentru trei combinaţii posibile Pentru unicitatea soluţiei, în [Mon 96] se ξ propune verificarea, pe lângă un produs ξ∆⋅∆ t cât mai mic, şi a unei restricţii ψψ 1 suplimentare impuse funcţiei Wavelet, şi anume minimizarea, pentru o valoare impusă a 2 parametrului k, a expresiei: 2223 () +ξ∆=ν (3 128) tkk∆ ψψ Expresia (3 128) este o măsură asociatăt produsului de incertitudine Heisenberg ξ∆⋅∆ 3 21 Acoperirea a trei funcţiit, fiind de fapt o măsură a uneiFigura ψψ Wavelet cu acelaşi produs Heisenberg-Gabor incertitudini echilibrate Acest lucru este asigurat de faptul că ea implică un anumit raport a celor două măsuri implicate Parametrul liber k specifică importanţa relativă a celor două măsuri (rezoluţia temporală ∆ tşi respectiv rezoluţia frecvenţială ψ ξ∆ ) Măsura (3 128) este de fapt diagonala ponderată a celulei de rezoluţie timp-frecven ţă asociată ψ Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 76 funcţiei Wavelet Mai rămâne o problemă de rezolvat, şi anume, introducerea celor două restricţii în proiectarea sistemului Wavelet, având în vedere faptul că se construieşte, într-o primă fază, filtrul numeric asociat În [Mon 96] se arată că este posibil calculul direct al măsurilor ∆şi ξ pe baza t∆ ψψ coeficienţilor hk ai filtrului numeric Astfel, se poate scrie: − −− 2L1Lnm2 () −π 21 ==ξ∆ ∑∑ ψ nmhh4(3 129) 2 () − =+= 0n1nmnm3 unde L=2M este lungimea filtrului, iar − 1L 222 () −=∆ ∑ ψ n0htnt(3 130) = 0n cu: ⋅ ∑ nhn n = 0t(3 131) ∑ nh n Exemple a) Pentru M=1, funcţiile Haar sunt singurele pentru care produsul de incertitudine este ξ∆⋅∆ În mod similar, minimizarea lui ∆ pentru orice lungime de filtru duce tot la 568 0t= t ψψψ funcţiile Haar , deci cu doi coeficienţi adiacenţi nenuli b) Pentru M=2, avem un singur parametru liber iar minimizarea (3 128) se poate face uşor Minimizând (3 128) cu k=0 se obţine funcţia Wavelet DAU-2, deci DAU-2 este şi funcţia care ∆∆ minimizează ξ, pentru o lungime L=4 impusă, indiferent de valoarea lui t Luând valori ψψ diferite pentru parametrul k vom obţine funcţii Wavelet diferite Notâm cu O4 clasa de funcţii ce conţine funcţiile astfel obţinute c) Pentru M=3, avem doi parametrii independenţi Minimizând (3 128) cu k=0 se obţine, similar cazului anterior, funcţia Wavelet DAU-3 Notăm cu O6 clasa funcţiilor Wavelet ce minimizează (3 128) pentru diferitele valori ale parametrului k având lungimea impusă a filtrului L=6 ∆ξ∆⋅∆ Tabelul 3 2 conţine valorile calculate ale măsurilor ∆ şi a produsului t pentru t, ξ ψψψψ şapte sisteme Wavelet diferite S-au notat cu UMin4 respectiv UMin6 sistemele Wavelet de lungime impusă, L=4 şi respectiv L=6, cu produsul Heisenberg-Gabor minim ∆⋅∆ Tabelul 3 2 Exemple de măsuri ∆, ξ şi produse de incertitudine ξ ale unor funcţii Wavelet t∆t ψψψψ 2 ∆∆ξ∆⋅∆ tt Numele kξ ψψψψ Haar (DAU-1)∞1 136 0 500 0 568 DAU-2 01 033 0 612 0 633 O4 0 41 035 0 597 0 618 UMin4 -1 103 0 506 0 559 DAU-3≈0 988 0 650 0 641 0 O6 0 4 0 995 0 686 0 682 UMin6 - 0 963 0 635 0 611 Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 77 Expunerea făcută în cele trei ultime paragrafe, §3 1 1 7, §3 1 1 8 şi §3 1 1 9, ne permite să tragem o serie de concluzii Astfel, au fost puse în eviden ţă o serie de proprietăţi esenţiale ale unor funcţii Wavelet cum sunt număr de momente nule, regularitate, suport compact, localizare în planul timp- frecven ţă S-a remarcat a fi foarte important, din punct de vedere al unei aplicaţii efective, observaţia conform căreia este posibilă caracterizarea unor serii de proprietăţi ale unui semnal de 〉ψ〈 () analizat x(t) pe baza analizei seriei coeficienţilor de descompunere () t,tx Astfel, k,j proprietăţilor de regularitate ale semnalului pot fi caracterizate dacă se impune condiţia ca funcţiile Wavelet de analiză să fie funcţii mai regulate decât gradul de regularitate estimat al acestui semnal Similar acţionează şi proprietăţile de moment ale funcţiilor Wavelet S-a remarcat faptul că aceste proprietăţi ale funcţiilor Wavelet mamă, care au fost puse în discuţie în paragraful §3 1 1 7, rămân valabile şi pentru funcţiile Wavelet (), conform calităţilor de conservare de proprietăţi a tψ k,j procedurilor de translaţie şi rescalare, subiect abordat în §3 1 1 9 Astfel este posibilă, de exemplu, caracterizarea simplă a semnalelor cu variaţie polinomială Proprietăţile de suport compact precum şi cele de localizare în planul timp-frecvenţă sunt utile din punctul de vedere al localizării unor evenimente (temporale sau frecvenţiale) a semnalului Aceste proprietăţi ne pot garanta o “împrăştiere” limitată, pe un număr de coeficienţi mai restrâns şi bine localizaţi în acest plan a acestor evenimente Tabelul 3 3 conţine o statistică comparativă a proprietăţilor de regularitate, momente nule şi celor de localizare pentru cazul a câtorva funcţii Wavelet mai des întâlnite Tabelul 3 3 Gradul de regularitate şi proprietăţile de localizare ale unor funcţii Wavelet Funcţia wavelet Momente nule deRegularitateDescreştere sauDescreştere sau ordinHölder de ordinsuport temporalsuport frecvenţial Haar10 1/ξ 1/t Sinc ∞∞ 1/ polinomial Meyer ∞∞ Battle-LemariéN N exponentialN 1/ξ N Daubechies-NN (N) () 1/ξ unde (N) este o funcţie cu creştere liniară cu N ce aproximează N0 2075⋅pentru valori N mari Funcţiile Wavelet Battle-Lemarie de ordin N se bazează pe funcţii B-spline de ordin N-1 Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 78 3 1 2 Descompuneri Wavelet biortogonale ℜ Descompunerea unui semnal într-o bază de funcţii Wavelet ortogonală a spaţiului () 2L, subiect abordat în §3 1 1, prezintă o serie de avantaje dintre care cele mai importante sunt, din punct de vedere al unei aplicaţii de compresie a semnalului prelucrat, uşurinţa cu care pot fi calculate coeficienţii descompunerii respectiv uşurinţa cu care pot fi evaluate erorile de aproximare a ℜ semnalului printr-o proiecţie a sa pe unul din subspaţiile Vj ale lui (), precum şi eficienţa 2L algoritmului rapid de calcul numeric al transformării Wavelet, prezentat în §3 1 1 5 La aceste proprietăţi poate fi adăugată şi cea de control facil al proprietăţilor funcţiei Wavelet, cum sunt cele de localizare timp-frecvenţă, grad de regularitate, numărul de momente nule etc Cu toate acestea proprietatea de ortogonalitate impune restricţii severe funcţiei Wavelet Astfel, se cunoaşte faptul că, [Dau 88], singura funcţie Wavelet simetrică, cu suport compact şi care generează o bază ortogonală este funcţia Haar, cunoscută şi ca fiind una dintre funcţiile Wavelet cu un grad redus de regularitate Există o serie de descrieri, prezentări, de aplicaţii de compresie de imagini, [Coi 92b], [She 93], autorii cărora ajung la concluzia că în aceste cazuri speciale este mai bine să se renunţe la proprietatea de ortogonalitate în favoarea celei de simetrie a funcţiei Wavelet păstrând totodată un anumit grad minim de regularitate Reamintim faptul că, la începutul prezentului capitol, funcţiile Wavelet ortogonale au fost introduse plecând de la noţiunea de analiză multirezoluţie a spaţiului semnalelor de energie finită ℜ⊂∈ϕ Definiţia acesteia implică existenţa unei funcţii de scară () ( ) 20LVt, astfel încât mulţimea (){} −ϕ formează o bază Riesz a subspaţiului V0 S-a constatat de asemenea că, în cazul Zkkt∈ ξ sistemelor Wavelet ortogonale, funcţia (), definită conform (3 10) pe baza funcţiei de scară (), btϕ ∈ξ este constantă şi egală cu unu pentru orice valoare ℜ A fost subliniat, de asemenea, că în cazul general, această funcţie verifică dubla inegalitate dată de relaţia (3 11), unde A şi B sunt două constante pozitive oarecare, iar cazul ortogonal implică egalitatea A=B=1 Dacă se consideră o {} −ϕ funcţie oarecare x(t) din V0, descompunerea acesteia în baza ortonormală () este de Zkkt∈ forma: −ϕ⋅〉−ϕ〈 k)(tk)(t,)t(x=x(t) (3 132) ∑ k {} −ϕ formează o bază Riesz a lui V0, dar care nu este În cazul general, când mulţimea () Zkkt∈ ortogonală, dezvoltarea (3 132) nu mai este adevărată pentru orice funcţie x(t), însă există o funcţie, ~ , denumită funcţie de scară duală astfel încât, pentru orice funcţie x(t) din V0, să fie notată () tϕ adevărată relaţia, [Dau 92]: ~ −ϕ⋅〉−ϕ〈 ∑(3 133) k)(tk)(t,)t(x=x(t) k ~ Cele două funcţii () şi () sunt diferite, în general, şi identice în cazul ortogonal Funcţia de tϕtϕ scară duală verifică proprietăţile de ortogonalitate: ~ () ( ) δ=−ϕϕ şi Zk,kt,t∈ k∀ ~ () ( ) ∀=−ψϕ (3 134) Zk,0kt,t∈ ℜ Similar funcţiei de scară (), ce induce o analiză multirezoluţie a spaţiului (), caracterizată tϕL 2 ~ prin cele două şiruri de subspaţii, Vj şi Wj, Zj∈ , şi funcţia de scară duală () induce, la rândul său tϕ o analiză multirezoluţie, denumită analiză multirezoluţie duală Ea poate fi definită conform definiţiei 3 1 a unei analize multirezoluţie Pot fi stabilite relaţii similare cu (3 13) şi (3 15), care ~ rămân valabile Vom nota cu V subspaţiile () jℜ2L implicate în această analiză multirezoluţie În ~~~ mod similar vom nota cu W subspaţiile () jℜ2L complementare subspaţiilor jV în 1jV+ Evident, cele două analize multirezoluţie nu sunt identice exceptând cazul ortogonal, când cele două funcţii de scară sunt şi ele identice Se constată faptul că, similar funcţiei de scară (), ale cărei tϕ Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 79 ~ {} −ϕ versiuni deplasate formează o bază Riesz a lui V0, şi mulţimea () formează o bază Riesz a Zkkt∈ ~ ~ subspaţiului V În mod similar, funcţiile (), definite conform: tϕ 0{} Zkk,j∈ ~~jj () () ⋅=ϕ (3 135) kt22t− k,jϕ ~ formează o bază Riesz a subspaţiilor V,Zj∈ j ~~~ ~ () Zlh∈ ∈ϕ Observaţie: deoarece (), există o secven ţă {} astfel încât funcţia de scară 2Zkk∈ 10VVt⊂ duală să se poată scrie sub forma: ∞ ~~~ ()() +ϕ=ϕ ∑ kkt2h2t(3 136) −∞= k o proprietate similară cu (3 7), verificată de funcţia scară () tϕ ~ , denumită funcţie Wavelet mamă duală, ce induce o bază Riesz de Există şi o funcţie () tψ ~~~~~ {} ∈ψ −ψ forma () a spaţiului W Deoarece funcţia (), există o secven ţă 010VWt⊂ Zkkt∈ ~ {} () astfel încât funcţia Wavelet mamă duală verifică relaţia: Zlg∈ 2Zkk∈ ∞ ~~~ ()() +ϕ=ψ ∑ kkt2g2t (3 137) k −∞= ~ {} , cu În mod similar, se poate deduce imediat că mulţimea de funcţii () tψ Zkk,j∈ ~~jj () () ⋅=ψ (3 138) kt22t− k,jψ ~ este o bază Riesz a subspaţiului W j ~ Proprietăţi similare cu (1 134) sunt verificate şi de funcţiile Wavelet duale () tψ k,j, în sensul că ele verifică: ~ () ( ) ∀=−ϕψ Zk,0kt,t∈ ~ δ⋅δ=ψψ (3 139) () Z'k,k,'j,j,,t∈ 'kk'jj'k,'jk,j∀ Funcţia Wavelet mamă(), definită conform (3 16), oferă punctul de plecare în formarea unei baze tψ ℜ Riesz a spaţiului () Aceasta este reprezentată de mulţimea de funcţii (), definită tψ 2L{} Zk,jk,j∈ conform, jj () () ⋅=ψ (3 140) kt22t− k,jψ Teorema 3 2 din §3 1 1 ne asigură de faptul că în cazul în care funcţia Wavelet este definită pe baza unei funcţii de scară ortogonală, baza Riesz dată de relaţia (3 139) va fi una ortogonală În ℜ∈ acest caz, orice semnal () admite o descompunere în această bază, de forma: ( ) 2Ltx ψ⋅〉ψ〈 () () ∑∑ k,jk,jtt,)t(x=x(t)(3 141) kj expresie care din nou nu este adevărată în cazul general Ea poate fi rescrisă, în mod similar cu (3 133), sub forma, [Coh 92a]: ~ ψ⋅〉ψ〈 () () ∑∑ k,jk,jtt,)t(x=x(t)(3 142) kj implicând funcţiile Wavelet duale, definite conform cu (3 138) Cele două proprietăţi, (1 133) şi (1 142) sunt consecinţe directe ale proprietăţilor avute de cele două analize multirezoluţie Astfel, se constată, că în general subspaţiul V nu este ortogonal pe W, jj pentru orice valoare întreagă posibilă a lui j Această proprietate este verificată şi de către ~~ subspaţiile duale V şi W Astfel se explică motivul din care expresia (1 133) nu este adevarată în jj cazul general Însă, din modul în care aceste analize multirezoluţii sunt definite, bazate pe cele două Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 80 funcţii duale (funcţia de scară duală şi respectiv funcţia Wavelet mamă duală), ce verifică proprietăţile (3 134) şi (3 139), rezultă că sunt verificate proprietăţile : ~~ ⊥ , Zj,WV∈ (3 143) jjWV⊥jj∀ ~ ⊥ şi respectiv: 'jj,WW≠ (3 144) 'jj∀ {} şi Având în vedere aceste proprietăţi de ortogonalitate se spune că cele două baze, () tψ Zk,jk,j∈ ~ {} () ℜ , deşi nu sunt în general baze ortogonale ale spaţiului hilbert (), sunt baze tψ 2L Zk,jk,j∈ biortogonale, iar o descompunere a unui semnal () tx de forma (3 142) poartă denumirea de descompunere Wavelet biortogonală Ea reprezintă, similar unei descompuneri Wavelet ortogonale, o altă imagine a semnalului x(t), de forma (3 1), în care coeficienţii descompunerii xk sunt chiar produsele scalare ale semnalului cu funcţiile Wavelet duale Evident, performanţele unui sistem de compresie bazat pe o astfel de transformare depind, după cum s-a specificat la începutul acestui capitol, atât de proprietăţile semnalului analizat cât şi de cele ale funcţiilor bazei descompunerii Din acest motiv, în cazul descompunerilor Wavelet biortogonale, spre deosebire de cele ortogonale, numărul parametrilor transformării este mai mare Astfel trebuiesc avute în vedere atât proprietăţile funcţiilor de scară şi respectiv Wavelet directe cât şi cele ale funcţiilor de scară şi respectiv Wavelet duale rezultate Condiţiile de biortogonalitate (3 134) şi (3 139) pot fi scrise în domeniul frecvenţă sub forma: ~* ()() ℜ∈ξ∀=π+ξϕ⋅π+ξϕ ,1k2ˆk2ˆ ∑ k ~* ()() ℜ∈ξ∀=π+ξψ⋅π+ξψ ,1k2ˆk2ˆ ∑ k (3 145) ~* ()() ℜ∈ξ∀=π+ξψ⋅π+ξϕ ,0k2ˆk2ˆ ∑ k ~* ()() ℜ∈ξ∀=π+ξϕ⋅π+ξψ ,0k2ˆk2ˆ ∑ k Evident ele se reduc la condiţiile (3 20) şi respectiv (3 32) în cazul ortogonal ~ ~ Aceste condiţii, în termenii răspunsurilor la impuls ale filtrelor numerice h,g,h şi g implicate kkkk în definiţiile (3 7), (3 16), (3 136) şi (3 137), pot fi scrise, [Coh 92a]: ~~** ℜ∈ξ∀=π+ξ⋅π+ξ+ξ⋅ξ () () ( ) ( ) 1mmmm 0000 ~~** () () ( ) ( ) ℜ∈ξ∀=π+ξ⋅π+ξ+ξ⋅ξ 1mmmm 1111 (3 146) ~~** ℜ∈ξ∀=π+ξ⋅π+ξ+ξ⋅ξ () () ( ) ( ) 0mmmm 1010 ~~** () () ( ) ( ) ℜ∈ξ∀=π+ξ⋅π+ξ+ξ⋅ξ 0mmmm 0101 ~~ ξξξξ unde () 0m se defineşte conform relaţiei (3 49) iar ()1m conform (3 56) Funcţiile ()0m şi ()1m ξξ au definiţii similare cu cele ale lui () şi () cu deosebirea că acestea implică, în loc de 0m1m ~ ~ secvenţele hk şi gk, răspunsurile la impuls h şi g ale filtrelor duale kk Condiţiile (3 146) pot fi exprimate sintetic, sub forma: ~*T I= ξ⋅ξ MM(3 147) () () ~~ ( ) π+ξξ π+ξξ () ( )     00mm~ 00mm() unde () =ξ =ξ M şi ()     ~~M () ( ) π+ξξ π+ξξ () ( ) 11mm    11mm Verificarea acestor condiţii este asigurată de o soluţie de forma: **1~1~ π+ξ−=ξπ+ξ=ξ ()() ()() 0110mm,mm(3 148) ξξ ()() detdetMM ce indică o legătură directă dintre filtrele Wavelet directe şi cele duale Pe baza ei, cunoscând răspunsurile la impuls hk şi gk ale filtrelor Wavelet directe, pot fi dimensionate filtrele Wavelet ~ ~ duale cu răspunsurile la impuls h şi respectiv g kk Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 81 3 1 2 1 Transformarea Wavelet Biortogonală Rapidă Presupunând că se cunoaşte o dezvoltare de forma (3 133) a unui semnal x(t) din subspaţiul V0 , ne interesează proiecţiile succesive ale acestuia pe subspaţiile Vj, Wj, j Pentru un nivel de prag ε fixat se contorizează coeficienţii ce depăşesc în valoare absolută acest prag Acesta va indica numărul coeficienţilor ce trebuiesc reţinuţi în vederea unei reconstrucţii de semnal cu o precizie ε; b) concentraţia în norma () 2p,Zl arbitrar şi se numără biţii termenului   ε   Însumarea după k oferă o măsură informaţională aditivă a acestei secvenţe Aceasta corespunde numărului de biţi necesari stocării sau transmiterii coeficienţilor xk cu o precizie ε În prealabil s-a enunţat faptul că, prin definiţie, baza optimală B a unui spaţiu oarecare V pentru un ⋅ semnal ()relativ la o funcţie cost () este acea bază care minimizează expresia () În Vtx∈BxC C cazul în care se dispune de o bibliotecă de baze formată din pachete de funcţii Wavelet asociate unui arbore binar (ce corespunde unei descompuneri în pachete de funcţii Wavelet a unui semnal) j baza optimală poate fi găsită în mod iterativ Să notăm cu B, 12, ,1,0k− bazele de funcţii ce k,j= jj = corespund nodurilor N, 12, ,1,0k− de pe nivelul ierarhic j al arborelui binar Evident, pentru k {} −ϕ există doar o singură bază, baza () a spaţiului V0, spaţiu de pornire în această 0j= Zkkt∈ j analiză Se presupun cunoscute toate bazele de forma B, J, ,0j=, 12, ,1,0k−, ce constituie k,j= biblioteca de baze mai sus amintită Algoritmul recursiv presupune construcţia iterativă a unor baze de forma: ()( )( ) + (3 185) () s-a impus datorită rezoluţiei timp-frecvenţă maxime oferite Atomii acestei analize se mai numesc şi funcţii Gabor b) Transformarea Wavelet Continuă În cazul Transformării Wavelet funcţia Wavelet (), centrată în jurul unei frecvenţe ξ, este tψ 0 pe post de atom generator Atomii timp-frecvenţă se obţin conform:   τ− t1   () ψ⋅=ψ ξ⋅ t(3 186) τξ   ξ ξ 00   ξ În acest caz se recunoaşte acţiunea grupului de transformări translaţie-rescalare asupra atomului generator Acest grup de transformări se mai numeşte grup afin sau grup 'ax+b' Reprezentarea timp-frecvenţă asociată rezultă de forma: ( ) () () 〉ψ〈=ξτ t,tx,CWT(3 187) τξ x Ambele reprezentări mai sus amintite sunt reprezentări de semnal continue, deci redundante, inadecvate scopului urmărit: compresia semnalului analizat Este posibilă insă considerarea unor versiuni discretizate ale acestora Pentru cazul funcţiilor Wavelet am văzut deja, în paragraful §3 1 1 9, că există variante discretizate ce elimină total această redundanţă a reprezentării continue Este vorba evident despre reprezentarea Wavelet ortogonală Au fost prezentate şi cazuri în care în urma acestei discretizări aveam de-a face cu o reprezentare discretă dar nu ortogonală a semnalului Era cazul reprezentării Wavelet biortogonale Se caută deci, baze de atomi timp-frecvenţă neredundante, cu indexare discretă, ce poate oferi o imagine completă şi convenabilă a semnalului analizat ℜ∈ Fie () ( ) 2lkLth un atom timp-frecven ţă localizat în planul timp-frecvenţă în jurul unui punct indexat după l şi k (Zk,l∈ ) Mulţimea () formează o bază ortonormală a lui {} Zk,llkth∈ ℜ () 2Ldacă: () () ∀ ⋅δ=⋅ , Z'k,k,'l,l∈(3 188) 'kk'll'k'llkththδ ∫ t ℜ∈ şi orice semnal x(t) ()se poate scrie: 2L () () ()() ⋅= ∑∑ lklkthth,txtx(3 189) lk () th,tx, poate fi interpretat ca o măsură a Un coeficient al descompunerii, de forma() lk energiei de interacţiune partajată de semnalul analizat cu diferiţii atomi timp-frecvenţă Astfel, se Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 99 poate spune că o descompunere liniară după o bază ortonormală furnizează ca şi subprodus o distribuţie energetică în planul timp-frecvenţă a semnalului considerat Exemplu: O metodă de analiză derivată din dezvoltarea în serii a semnalelor periodice o constituie "Seriile Fourier Locale" Acestea se obţin după cum urmează: semnalul de analizat x(t) (un semnal ℜ arbitrar din spaţiul Hilbert () 2L), se împarte în blocuri de lungime T iar fiecare semnal astfel rezultat se prelungeşte prin periodicitate (cu perioada T) şi se dezvoltă în serie Fourier semnalul periodic obţinut În general, în punctele capăt de interval reprezentarea nu o să fie corectă din cauza discontinuităţilor generate de periodizare Însă energia erorii (eroarea medie pătratică de aproximare) este nulă, reprezentarea obţinută egalând semnalul a p t (aproape peste tot) Funcţiile descompunerii formează o bază (un set complet, ortogonal şi normat de funcţii) Localizarea în timp este asigurată cu o rezoluţie T (impusă) şi există şi o oarecare localizare în domeniul frecvenţă (nu prea bună însă deoarece funcţiile bazei sunt unde armonice ferestruite cu fereastră temporală rectangulară, o funcţie discontinuă ce asigură o viteză de descreştere în domeniul Fourier de ordinul 1 ) ξ Atomul generator este deci funcţia:  ≤ Tt11 () () ⋅== thth(3 190)  00 > Tt0T  2π tlj⋅ iar atomii () se obţin pornind de la această funcţie prin modulare cu Te şi respectiv th lk 2π ξ=τ translaţie cu kT (cu pasul T) Aceasta corespunde discretizării de forma l,kT= a procedurii T (3 182) 3 3 2 Structuri oblice (frames) Caracterizează o reprezentare intermediară între una continuă şi una ortogonală Mulţimea de funcţii () constituie o structură oblică (frame) dacă există două constante A şi B cu {} Zk,llkth∈ () ∞ , există o constantă Md astfel încât ∞, 1n; dnMnc Teorema se poate demonstra, de exemplu, construind descompunerea Littlewod-Paley a funcţiei h(t) Aceste funcţii se numesc molecule timp-frecvenţă Consecinţe: - toate funcţiile clasei S sunt molecule timp-frecvenţă; - mulţimea atomilor timp-frecvenţă este densă în clasa S Deoarece clasa S la rândul său aparţine mai multor spaţii de funcţii rezultă că şi funcţii mai puţin regulate pot fi descompuse după atomii timp-frecvenţă dar, în general, seria coeficienţilor descompunerii {} nu o să fie cu o descreştere rapidă Nnnc∈ Yves Meyer a descoperit faptul că o singură secvenţă de atomi timp-frecvenţă ortonormali poate fi folosită pentru descompunerea tuturor funcţiilor clasei S, şi nu numai În acest sens a stabilit următoarea teoremă: {} ⊂ϕ Teorema 3 4 (teorema lui Meyer): există o secven ţă ()S de atomi timp-frecvenţă cu ∈ Nnnt următoarele proprietăţi: ∀ ϕ , 1n≥; 1 1= 2n ϕϕ 2 ,δ nlln= ∀ ξ∆⋅ϕ∆ 3 (), 1n≥; 1t = 1n d ∀ ∞ nu există nici măcar o structură oblică, reprezentarea devenind una incompletă 00ξ Astfel atomul propus de Gabor: 2  t11 ⋅−  − 0t242 () = (3 200) () ettg 0π ⋅ la 1t= nu poate genera o structură oblică (cu atât mai puţin o bază ortogonală) 00ξ ⋅ , admiţând o anumită redundanţă a reprezentării Din acest motiv se lucrează, de obicei, cu 1t π 1tm2  − π 1t2/2  2d tr va fi o funcţie simetrică, continuă şi cu Observaţie: alegând o astfel de funcţie r(t), funcţia () dt suport compact în intervalul [] 1,1− O cale posibilă de a găsi o funcţie (), ce verifică condiţiile (3 207), este de a porni de la o funcţie tθ , ce verifică condiţiile: integrabilă simetrică () tφ ∞ π ()() ℜ∈∀−φ=φ τφ =φ d(3 208) ;1t,0t> (); = ( ) t,ttτ ∫ 2 ∞− 1 ρ ℜ∈ Un exemplu de funcţie (), cu valori reale (()), se obţine prin alegerea: ( ) Ctr0t≡  ≤π ;1t,4/π () =φ Ι⋅=  1,1t− [] 4;1t,0>  π ∈+=θ 1,1t,t1t− Rezultă: () () [] 4 − 1t1  1 0 9 0 8 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 -2-1 5-1-0 500 511 52 Figura 3 31 Funcţia () tr sin Folosind funcţia dată de (3 209) este posibilă construcţia de funcţii r(t) mult mai regulate, d ℜ aparţinând clasei (), printr-un proces iterativ, ce presupune înlocuirea repetată a variabilei 1d,C> tπ t cu expresia sin Acest proces poate fi sintetizat astfel: 2 () trtr= - se consideră () [] sin0 dat de (3 209); π t  = - se construiesc funcţiile () , 2,1,0n,sinrtr=  [][] + n1n 2  Autor: ing Tibor AsztalosTeză de doctorat Capitolul III 106 n tr are 12− Prin inducţie se poate arăta că funcţia () derivate nule în punctele 1t±, deci [] n= n − 12 () ( ) ℜ∈ nCtr [] Operatorul de “pliere” U se defineşte astfel: >−⋅−+⋅ 0t,txtrtxtr () () ( ) ( )  = () tUx(3 210)  ** ( ) () () ( ) −⋅−−⋅ 0t,txtrtxtr*  = txU(3 211) ()  *  ( ) () () ( ) ≤ 1Nk,0k0   +=== [] 1Nk,1k2/1kb   ≤ εε≤ε+ε astfel încât Npentru a asigura regiuni de se aleg Z,,0,∈ ++++ k1kNα1kk1kkε1kk * acţiune disjuncte ale operatorilor U şi U Funcţiile bazelor discrete pot fi obţinute prin {} discretizarea de forma () cu Zj,jt∈ th= j Nnjnk∈ În aceste condiţii, ţinând cont de proprietatea (3 203) a funcţiei r(t) utilizată, rezultă că eşantioanele () N/jrr= j trebuie să satisfacă relaţia: 22 () ∀=−+ () Zj,1N/jrN/jr∈ Se observă imediat faptul că alegând această funcţie r(t) ca fiind funcţia treaptă unitate, (), tσ discretizarea mai sus menţionată a funcţiilor definite conform (3 222) ne va da exact transformarea DCT-III Evident, o astfel de alegere nu este recomandabilă, datorită regularităţii foarte scăzute a Însă, această observaţie ne indică rolul important jucat de transformarea DCT şi în funcţiei () tσ construcţia bazelor de funcţii cosinusoidale locale discrete Astfel, această procedură presupune paşii: αα= , a axei - construirea unei partiţii complete de intervale Ik disjuncte, de forma [] 1kkk,I+ numerelor întregi Z, Zk,IZ∈; $ k= k - calculul versiunilor discretizate ale funcţiilor (), definite conform (3 220), în punctele tC k,n ; Zj,jt∈ j= ** () χ αεα - aplicarea operatorilor () şi () funcţiilor () α [] kkr,Uε1k1kr,U+jk,n,tCt⋅ ++ k1k+1kkα Se obţine astfel, prin concatenarea tuturor bazelor ortogonale construite pe aceste intervale Ik (Zk,IZ∈), o bază de funcţii cosinusoidale locale discrete, ortogonală, a spaţiului () $Zl2 k= k Transformarea asociată descompunerii în baza astfel construită rezultă una infinit dimensională În ! practică însă, se porneşte de la un vector de intrare [] finit dimensional Din N21X XXX= acest motiv este de ajuns să se găsească N funcţii ale unei asemenea baze construite pe un interval de lungime finită N Acest interval, notat cu IN şi denumit interval rădăcină, defineşte spaţiul de Autor: ing Tibor AsztalosTeză de doctorat Capitolul IV 116 pornire în analiză, () Construcţia unei baze locale a acestui spaţiu poate fi făcută prin N2Il considerarea bazelor de funcţii cosinusoidale locale construite pe subintervalele acestuia Conform !! proprietăţii (3 224), calculul coeficienţilor de proiecţie Y ai vectorului X într-o asemenea bază se poate face prin: αεα şi () secvenţei de valori - aplicarea operatorilor () kk,Uε1k1k,U+ rr+ k1k+ = ); X XX(valorile secvenţei de intrare dintr+un interval [],Iα α+αα+ 1kkkα 1kkk1+ - aplicarea transformării DCT-III Procedura mai sus menţionată defineşte Transformarea în funcţii Cosinusoidale Locale Discretă, DLCT ! Operaţia inversă, de reconstrucţie a vectorului X iniţial, presupune: - aplicarea transformării DCT-II (inversa lui DCT-III); ** α αεα şi () în punctele de capăt ,α ale - aplicarea operatorilor() kkr,Uε1k1kr,U+1kk+ + k1k+ intervalelor Ik În paragraful precedent, §4 4, am văzut că atât DCT-II cât şi DCT-III sunt forme ale transformării DCT ce fac distincţie între punctul de capăt din stânga şi respectiv cel din dreapta intervalului de interes Din acest motiv ele au fost denumite nesimetrice Se obţin forme simetrice dacă se 1 în definiţia (3 222) a eşantionează în punctele intermediare, înlocuind variabila t cu expresia t+ 2 funcţiilor (), şi se trece apoi la o discretizare cu pas unitar a acestora Astfel, utilizând operatori th nk * U şi U, decalaţi şi ei în mod corespunzător, se poate obţine o altă bază de funcţii cosinusoidale locale discrete, ortogonală Descompunerile şi reconstrucţiile de semnal în/din această bază pot fi făcute conform procedurilor mai sus menţionate cu deosebirea faptului că în ambele faze se va lucra cu DCT-IV (având în vedere faptul că inversa lui DCT-IV este tot DCT-IV) Observaţii: L , motivat de faptul că această a) în cazurile practice intervalul rădăcină IN are o lungime 2N= condiţie permite utilizarea unor algoritmi rapizi de calcul, bazaţi pe FFT, ai DCT-ului implicat; b) pe baza aceluiaşi considerent, se procedează la subîmpărţiri diadice ale acestui interval Subîmpărţirea mai sus menţionată poate fi reiterată pentru orice subinterval obţinut, rezultând astfel, în final, o ierarhie de subdiviziuni diadice ale intervalului rădăcină Se poate obţine, de asemenea, o colecţie, o bibliotecă de baze ortogonale construite pe aceste subintervale, asociate acestei ierarhii Ele sunt denumite în mod curent baze de pachete de funcţii cosinusoidale locale şi sunt structurate şi ele într-o ierarhie de baze cosinusoidale locale Orice colecţie de asemenea baze, construite într-o anumită iteraţie de subîmpărţire, formează o bază ortogonală a spaţiului () N2Il; ! c) Coeficienţii descompunerii unui semnal (vectorul X) într-o astfel de bază defineşte Transformarea în Pachete de funcţii Cosinusoidale Locale Discretă - DLCPT (Discrete Local Cosine Packet Transform) Este posibilă utilizarea unor proceduri similare celor prezentate în §3 2 6, abordate în contextul bazelor de pachete de funcţii Wavelet, în vederea găsirii une baze optimale; L d) se poate observa faptul că în cazul unei lungimi 2N= a intervalului de rădăcină, procedura de subîmpărţire poate fi reiterată de un număr maxim de L-ori În acest caz se spune că se Autor: ing Tibor AsztalosTeză de doctorat Capitolul IV 117 efectuează o analiză pe L nivele Această limită este însă o limită teoretică, obtenabilă doar ε în condiţiile în care în diferitele iteraţii (pe diferite nivele) se lucrează cu raze Z,∈ + 1kkε αεα ale regiunilor de acţiune ale operatorilor () şi () ce se diminuează kk,Uε1k1k,U+ rr+ k1k+ progresiv, tinzând către zero (valoare folosită pe nivelul L) În practică se lucrează de obicei R ≤ cu o valoare fixă a acestor raze, egală de obicei cu LR0,2 ≥≥≥ (4 29) 0b bb bb= + N1*j*j21= Minimizarea (4 27), supusă restricţiei (4 23), poate fi făcută folosind tehnica multiplicatorului lui Lagrange Se formează expresia: NN  − b22 i  ⋅−⋅θ+⋅σ=α ∑∑ ibNb2(4 30) Y  i == 1i1i  α∂ şi se anulează derivatele parţiale,, i=1,2,…,j* Obţinem un sistem de ecuaţii liniare format din ib∂ θ astfel încât: j* ecuaţii cu tot atâtea necunoscute Există o constantă θ 0= 2 σ 1Y i (4 31) *j, 2,1i,logb= 2i= 2θ 0 echivalent cu: 2  σ 2Yi1  θ>σ  02,log Y = i2b(4 32) θ  0i  2 θ≤σ 00  Y i  unde θ 0 satisface condiţia : 2 σ 1Y i (4 33) Nblog= 2∑ 22θ 0 >σ 0θ iY 2 σ să-i fie repartizaţi un număr nenul de biţi, ceea ce înseamnă N, ,2,1i,=, din (4 33) poate fi 0Y∀ i calculată valoarea θ 0: N b22− N2⋅ σ=θ (4 36) Y0∏ i 1i= Înlocuind (4 36) în (4 32) rezultă regula de alocare de bit optimală: 2 σ 1Y i (4 37) = N, 2,1i,logbb= 2i+ 2N 2 Nσ Y∏ i 1i= Distorsiunea minimă teoretică este în acest caz: NN − b22b221i− N22D⋅ σ=⋅σ= (4 38) ∑ YY∏ ii = 1i1iN= Rezultatul de mai sus este unul general, el poate fi aplicat la orice transformare ortogonală El a fost stabilit, reamintim, pentru cazul unei surse de semnale aleatoare staţionare gaussiene Având impusă o rată de bit medie de b biţi/eşantion, dacă aceasta este suficient de mare, distorsiunea medie a sistemului poate fi apreciată conform (4 38) Această relaţie ne indică condiţia de optimalitate din punctul de vedere al procedurii de transformare ortogonală Astfel, transformarea ortogonală optimală este cea care minimizează, la o rată de bit b impusă, expresia: N 2 Nσ (4 39) Y∏ i 1i= Observaţie: în cazul în care procedura de alocare de bit optimală descrisă mai sus se aplică direct ! , cu componentele Xi variabile aleatoare gaussiene vectorului de intrare [] N21X XXX= 2 de medie nulă şi dispersie σ X, expresia (4 39) se reduce la această dispersie iar expresia (4 38) la expresia (1 21) (reprodus (4 26)) Se poate defini câştigul de transformare prin raportul distorsiunilor medii obţinute, corespunzătoare celor două cazuri şi anume fără şi cu transformare În cazul nostru acest câştig poate fi exprimat sub forma: 2 Xσ (4 40) () tNG= N 2 Nσ Y∏ i 1i= 2 iar transformarea optimă este cea care-l maximizează în condiţiile unei dispersiiσ date X Se poate arăta uşor, [Mor 95], că dintre toate transformările ortogonale posibile, transformarea Karhunen-Löeve este cea care maximizează acest câştig Exemplu: Să considerăm o sursă abstractă de semnale aleatoare, ce furnizează la ieşire sa secvenţa de variabile aleatoare, X,X,X în care perechile () ) , X,X,X,X sunt independente din punct 321(4321 Autor: ing Tibor AsztalosTeză de doctorat Capitolul IV 120 de vedere statistic, cu distribuţie gaussiană, de medie nulă şi cu aceeaşi matrice de covarianţă CX Fie b rata de bit medie pe eşantion (pe variabilă aleatoare) dorită Dorim să codăm această sursă cu pierdere astfel încât distorsiunea rezultată să fie aproape de cea optimă (indicată de funcţia distorsiune-rată teoretică) Teoria rată-distorsiune ne spune că distorsiunea optimă D(b) se poate exprima sub forma: 122   ()( )()() () ≤−+−= () b2Xˆ,Xˆ;X,XI:XˆXXˆXEminbD(4 41)  21212211  2  Aplicând transformarea Karhunen-Löeve secvenţei Xi se obţine secvenţa aleatoare Yi Deoarece transformarea Karhunen-Löeve este o transformare unitară, minimul din (4 41) se conservă dacă înlocuim perechea () 21X,X cu coeficienţii corespunzători ()21Y,Y Secvenţa de coeficienţi rezultată în urma transformării,, Y,Y,Y, poate fi reorganizată în două secvenţe de variabile aleatoare 321 gaussiene necorelate Astfel secvenţa coeficienţilor de ordin impar, , Y,Y,Y (4 42) 531 va fi o secven ţă aleatoare de variabile aleatoare independente, gaussiene, de medie nulă şi dispersie 2 σ constantă λ 11= În mod similar secvenţa coeficienţilor de ordin par, , Y,Y,Y (4 43) 642 va fi o secven ţă aleatoare de variabile aleatoare independente, gaussiene, de medie nulă şi dispersie 2 σλ>λ În expresiile de mai sus s-au notat cu ,λ valorile proprii, (), ale constantă λ 22=21λ21 matricii de covarianţă a sursei CX Fiind impusă rata de bit medie b, codarea de bit optimală implică găsirea ratelor de bit b1 , b2 >0, cu şi care minimizează distorsiunea: bbb= 21+ 1− 21b22b22− () +σ= (4 44) 2122Dσ 2 Altfel spus, distorsiunea optimă D(b) poate fi scrisă: 1b2b2− 22− {} >σ+σ= () (4 45) bbb,0b,b:22minbD21= 212121+ 2 Rezultă soluţiile (în funcţie de valoarea ratei de bit b): σ  11 += 21logbb  σ σ  1212 ≥  2logb,(4 46) σ 1 σ 212  −= 22logbb  σ 22  şi, respectiv, =  σ 111b2b b1>…>bM-1 " ξ /M2π π /M /M(M-1)π π Figura 5 4 Alocare de biţi optimală în cazul unui SBC Se observă faptul că există o analogie în ceea ce priveşte caracterizarea optimalităţii sistemelor de codare în subbenzi şi a celor cu transformări ortogonale, motiv pentru care pot fi folosite unele rezultate (adaptate situaţiei curente) obţinute în capitolul precedent, şi-anume, algoritmul de alocare optimală a biţilor prezentat în §4 5 Deosebirea constă în faptul că acea procedură prevede un număr de biţi de cuantizare diferit pentru fiecare coeficient al transformării în timp ce în cazul SBC alocarea de bit se face pentru fiecare subbandă (eşantioanele succesive din fiecare subbandă vor fi cuantizate pe acelaşi număr de biţi) Se observă deci, că avantajul major al sistemelor de codare în subbenzi rezidă în faptul că ele permit prelucrarea în mod diferenţiat a semnalelor din diferitele subbenzi Acest avantaj poate fi combinat cu posibilitatea prelucrării adaptive în domeniul timp a secvenţei de intrare x[n] în sensul îmbunătăţirii procedurii de alocare de bit mai sus menţionată prin alocarea unui număr mediu de bit pe eşantion mai mare în intervalele de timp în care energia semnalului este mai semnificativă şi invers, alocarea unui număr de biţi mai mic în intervalele în care energia semnalului este mai mică sau nesemnificativă Acest lucru este echivalent, de fapt, cu renunţarea la cuantizoare fixe şi folosirea unor cuantizoare adaptive, cu pasul de cuantizare variabil în timp Reconstrucţia unui semnal codat în subbenzi conform procedurii mai sus menţionate se poate face cu un sistem similar celui de codare, folosind şi de această dată tot M filtre Schema de principiu a decodorului se prezintă în figura 5 5 ]n[yˆ 0 M F0(ξ)↑ ]n[xˆ]n[yˆ 1 M+ F1(ξ)↑ ξξ ]n[yˆ 1M− M FM-1(ξ)↑ Figura 5 5 SBC de reconstrucţie Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 124 Sistemul din figura 5 5 realizează reconstrucţia (sinteza) unui semnal codat în subbenzi Figura 5 5 pune în eviden ţă o reconstrucţie printr-o însumare ponderată a M semnale Aceste semnale sunt obţinute pornind de la cele M secvenţe de cod 1M, ,0j],n[yˆ−, prin interpolare j= cu un factor M Interpolarea presupune inserarea a M-1 zerouri între două valori succesive ale secvenţei de intrare Se obţin astfel secvenţe interpolate cu un număr de eşantioane egal cu cel al secvenţei iniţiale, x[n] Ponderarea acestor secvenţe se realizează cu ajutorul al celor M filtre de 1M, ,1j,F− ξ reconstrucţie (), filtre ce sunt denumite şi filtre de sinteză j= În cele ce urmează vor fi studiate componentele majore ale sistemelor de codare în subbenzi, cu accentul pus pe dimensionarea filtrelor de analiză şi a celor de sinteză, urmărind o proiectare optimală în condiţiile în care semnalul de la intrare este cunoscut De asemenea va fi analizată legătura dintre cele două familii de filtre, căutând acele sisteme care permit, în absenţa cuantizoarelor, o reconstrucţie perfectă a semnalului prelucrat Având în vedere acest deziderat, ne vom interesa, cu precădere, de băncile de filtre cu reconstrucţie perfectă, de tip PR (Perfect Reconstruction) Vor fi analizate legăturile existente dintre aceste sisteme şi sistemele Wavelet, analogie parţial abordată în §3 1 1 6 5 1 Caracterizarea băncilor de filtre de tip PR În acest paragraf se urmăreşte stabililirea condiţiilor în care o bancă de filtre este cu reconstrucţie perfectă În acest scop vor fi descrise principalele operaţii ale băncilor de filtre: subeşantionare, filtrare liniară, interpolare În această caracterizare principala unealtă folosită va fi transformarea Z − n { }() z]n[xz]n[xZzX, o ⋅== Vom nota transformata Z a unei secvenţe numerice x[n] cu () ∑ n funcţie complexă de variabila Cz∈ Ea se defineşte în mod similar şi în cazul secvenţelor hk, ce − k { }() ⋅== reprezintă răspunsul la impuls al unor filtre liniare, prin () ∑ kkzhzhZzH k 5 1 1 Subeşantionarea Subeşantionarea cu factorul M, prezentă în băncile de filtre de analiză de forma celei din figura 5 1, este prezentată schematic în figura 5 6, şi se poate descrie conform ecuaţiei: y[n]x[n] M () ]Mn[x]n[xM]n[y= ↓= (5 1)↓ Figura 5 6 Subeşantionare cu un factor M M↓ Relaţia (5 1) pune în evidenţă operatorul de subeşantionare cu factorul M, () Ea poate fi rescrisă, în termenii transformatelor Z asociate secvenţelor x[n] şi y[n], ca : k21 π   − 1Mj − 1   −− MMnn () ezXz]Mn[xz]n[yzY(5 2) === ∑∑∑     0knnM =   [Gop 93] Caracterizarea sistemului de subeşantionare în domeniul frecvenţă poate fi făcută prin legătura ξξ dintre transformatele Fourier în timp discret (DTFT) ale secvenţelor y[n] şi x[n], () Y şi ()X Această legătură poate fi găsită prin evaluarea transformatelor Z implicate în (5 2) pe cercul unitate, ξ j 1z=1z=ez, şi notând: , din planul variabilei z este echivalent cu = Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 125 jzY]n[yDTFTY ξ () { } () ==ξ = ez jzX]n[xDTFTX(5 3) ξ () { } () ==ξ = ez se obţine: − 1M 11  ()() k2XY(5 4) π−ξ=ξ  ∑  = 0kMM Ecuaţia (5 4) pune în eviden ţă fenomenul de aliere spectrală cauzată de eşantionare în cazul în care secvenţa eşantionată x[n] nu este de bandă limitată 5 1 2 Interpolarea Procedura de interpolare cu un factor M, prezentă în băncile de filtre de sinteză, este prezentată schematic în figura 5 7 Ea poate fi descrisă de ecuaţia: y[n]x[n] M kMn]M/n[x↑ =  () ]n[xM]n[y(5 5) =↑=  kMn0 ≠  Figura 5 7 Interpolare cu un factor M Zk∈ Caracterizarea operaţiei de interpolare (5 5) în termenii transformatei Z se poate face conform cu: −− MMnn () () zXz]n[xz]n[yzY(5 6) === ∑∑ nn Caracterizarea sistemului de interpolare din figura 5 7 în domeniul frecvenţă, folosind notaţiile (5 3) se poate face conform cu: ξ−ξ− Mnjnj () ( ) MXe]n[xe]n[yY(5 7) ξ===ξ ∑∑ nn Caracterizarea băncilor de filtre de analiză şi sinteză în a căror componen ţă intră sisteme de subeşantionare şi respectiv de interpolare poate fi simplificată prin considerarea reprezentărilor polifază ale secvenţelor numerice 5 1 3 Reprezentarea polifază a secvenţelor numerice Fie x[n] o secven ţă numerică (un semnal în timp discret) şi X(z) transformata sa Z Prin definiţie, reprezentarea polifază directă asociată secvenţei x[n] este secvenţa vectorială: T# = [] [ ] 1M10M]n[x ]n[x]n[xnx− ]kn[xM]kMn[x]n[x− cu:() , k=0,…,M-1(5 8) =−= k↓ În mod similar, prin definiţie reprezentarea polifază duală a secvenţei x[n] este secvenţa vectorială: # T~~~~ = [] [ ] 1M10M]n[x ]n[x]n[xnx− ~ ]kn[xM]kMn[x]n[x+ =+= cu:() , k=0,…,M-1(5 9) k↓ Notând cu: p () { } ]n[xZzX= kk(5 10) transformata Z a unei secvenţe xk[n], se poate scrie: − 1M Mpk () () zXzzX(5 11) = ∑ k = 0k Observaţii: a) definiţia (5 8) pune în eviden ţă construcţia a M secvenţe prin aplicarea operaţiei de subeşantionare versiunilor decalate ale secvenţei de intrare x[n]; Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 126 b) relaţia (5 11) indică o sinteză a secvenţei x[n] din cele M secvenţe anterior construite prin însumarea versiunilor interpolate şi adecvat decalate ale lor Cele două observaţii pot fi puse sub forma identităţii din figura 5 8 x0[n] Mz00↑ ↓ zM x1[n]x[n] Mx[n]-11↑ ↓ zzM+ !!!! xM-[n] 1 -M+1 M MzM-1↑ ↓ z Figura 5 8 Legătura dintre o secvenţă x[n] şi reprezentarea sa polifază, ]n[x M 5 1 4 Echivalenţe remarcabile de sisteme 5 1 4 1 Filtrare-subeşantionare Fie sistemul din figura 5 9 în care: zH este un filtru liniar şi invariant în timp discret () y1[n] x[n]y[n] Notând cu h[n] răspunsul la impuls al acestuia, se poateH(z)↓ M scrie: Figura 5 9 Filtrare-subeşantionare () () () =↓=↓= 1]n[h*]n[xM]n[yM]n[y ]kMn[x]k[h −⋅= ∑ k (5 12) = Făcând schimbarea de variabilă lMpk+ această ecuaţie poate fi scrisă sub forma: − ∞ 1M () −−⋅+=↓= ∑∑ 1]l)pn(M[x]lMp[h]n[yM]n[y(5 13) −∞== p0l Aplicând transformarea Z ecuaţiei (5 13), rezultă: −∞ 1M1M −∞  pppp − −  () () () zXz]lMp[hzXz]lMp[hzY(5 14) +=+= ∑∑∑∑ ll  0lp0lp =−∞= =−∞=  unde s-a folosit definiţia (5 8) şi notaţia (5 10) ~p zH, a reprezentării polifază duale a În expresia din paranteză recunoaştem transformata Z, () l ~ ]ln[hM]lMn[h]n[h+ =+= secvenţei h[n], ()(indicele superior p a fost introdus din dorinţa l↓ evitării confuziilor dintre aceste componente polifază ale unui singur filtru şi diferitele filtre H ale unei bănci de filtre ca cea din figura 5 1) Cu aceste notaţii (5 14) devine: − 1M pp~ () () () zXzHzY(5 15) ⋅= ∑ ll = 0l Relaţia (5 15) arată că sistemul din figura (5 9) este echivalent cu cel din figura (5 10) Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 127 x0[n] Mz0~p ↓ () zH 0 x1[n]y[n] Mx[n]-1~p+ ↓ z( ) zH 1 !!! xM-[n] 1 -M+1~ p Mz ↓ () zH 1M− Figura 5 10 Sistem echivalent de filtrare subeşantionare 5 1 4 2 Subeşantionare-filtrare Fie sistemul din figura 5 11 Presupunând că filtrul() zH este un filtru liniar şi y1[n] x[n]y[n] M invariant în timp discret şi notând cu h[n] răspunsul laH(z)↓ impuls al acestuia, se poate scrie: =−⋅=↓= () ()() 5 11 Subeşantionare-filtrare]knM[x]k[h]n[xM*]n[h]n[yFigura ∑ k −− 11 ]'kMn[x]'kM[h]MkMn[x]MkM[h −=−⋅= ∑∑ 'kk (5 17) Relaţia (5 17) poate fi scrisă sub forma: ()()() ]n[x*]n[hMM]n[y↑ ↓= (5 18) Rezultă sistemul echivalent al celui din figura 5 11 de forma arătată în figura 5 12 x[n]My[n] M H(z)↓ Figura 5 12 Sistem echivalent Subeşantionare-filtrare Această echivalenţă este utilă deoarece ea ne permite să schimbăm ordinea a două operaţii, una variantă în timp (subeşantionarea) şi una liniară şi invariantă în timp (filtrarea) 5 1 4 3 Filtrare-interpolare Fie sistemul din figura 5 13 unde filtrul() zHeste un filtru liniar şi invariant în timp discret cu răspunsul la impuls notat h[n] x[n]y[n] M H(z)↑ Se poate scrie: () () ]kn[x]k[hM]n[x*]n[hM]n[y −⋅↑=↑= () ∑ Figura 5 13 Sistem filtrare-interpolre k (5 19) Aplicând transformarea Z ecuaţiei (5 19) ea devine: MM () ()() = (5 20) zXzHzY⋅ Aceasta sugerează un sistem echivalent celui din figura 5 13 de forma arătată în fig 5 14 x[n]y[n] M M H(z)↑ Figura 5 14 Sistem echivalent filtrare- interpolare Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 128 Această echivalenţă este utilă deoarece şi ea ne permite să schimbăm ordinea a două operaţii, una variantă în timp (interpolarea) şi una liniară şi invariantă în timp (filtrarea) 5 1 4 4 Interpolare-filtrare Să considerăm sistemul din figura 5 15 x[n]y[n] M H(z)↑ Figura 5 15 Sistem interpolare-filtrare Notând cu h[n] răspunsul la impuls al filtrului liniar H(z), se poate scrie: ()() ]n[h*]n[xM]n[y↑ = (5 21) Aplicând transformarea Z ecuaţiei (5 21), rezultă: − 1M MMplM ()()() ()() zXzHzzHzXzY(5 22) =⋅= ∑ l 0l = p zH reprezintă transformata Z a unde s-a folosit definiţia (5 8) şi rezultatul (5 11) Reamintim,() l componentei l din reprezentarea polifază directă a secvenţei h[n], ]lMn[h]n[h− l= Relaţia (5 22) arată că sistemul din figura 5 15 este echivalent cu cel din figura 5 16 M0p ↑ z() zH 0 y[n] Mx[n]1p+ ↑ z( ) zH 1 !!! MM-1p ↑ z () zH 1M− Figura 5 16 Sistem echivalent de interpolare-filtrare 5 1 5 Bănci de filtre de tip PR unitare Să considerăm o bancă de filtre uniformă pe M căi cu structura prezentată în figura 5 17 d0[n] MH(z)↑ ↓ F0(z)M 0 d1[n]y[n] Mx[n]↑ ↓ H1(z)F(z)M+ 1 !!!! dM-[n] 1 MH(z)↑ ↓ M-1F(z)M M-1 Figura 5 17 Bancă de filtre uniformă pe M căi Semnalul de intrare x[n] este trecut prin cele M filtre de analiză, notate () (unde, 1M, ,0i,zH− i= spre deosebire de notaţia din paragraful anterior, indicele i indexează diferitele filtre din structura Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 129 sistemului) Este de dorit ca răspunsul în frecvenţă al acestor filtre să fie cel ideal, conform figurii 5 3 Ieşirile acestor filtre sunt denumite semnale subbandă Semnalele subbandă sunt apoi subeşantionate cu un factor M obţinând secvenţele di[n],i=1,…,M-1 Reamintim, în cadrul unei aplicaţii de compresie (un sistem SBC), valorile acestor secvenţe urmează să fie codate În partea de sinteză a băncii de filtre secvenţele sunt interpolate iar versiunile lor filtrate sunt însumate Filtrele , poartă denumirea de filtre de sinteză O problemă majoră în folosite, notate () 1M, ,0i,zF− i= construcţia băncilor de filtre o reprezintă dimensionarea (construcţia) adecvată a celor două familii de filtre (cele de analiză şi cele de sinteză) În general se urmăreşte ca secvenţa y[n] de la ieşirea sistemului din figura 5 17 să aproximeze foarte bine semnalul de intrare x[n] De multe ori se cere ca aceasta să fie de forma: −⋅= (5 23) cta,Zn],nn[xa]n[y= 00∈ deci, semnalul y[n] să fie o versiune atenuată (sau amplificată) şi întârziată a celui de la intrare, x[n] Notând cu fj[n] răspunsurile la impuls ale filtrelor de sinteză, condiţia (5 23) impusă sistemului considerat va putea fi rescrisă sub forma: (5 24) ]n[x]n[y= 1− dacă în loc de secvenţele fj[n] sunt folosite secvenţele de forma ]nn[fa+ ca şi răspunsuri la 0j impuls ale filtrelor de sinteză Condiţia (5 24) poartă denumirea de condiţia de reconstrucţie perfectă, iar sistemele ce o verifică sunt denumite şi ele cu reconstrucţie perfectă deci, de tip PR Cu toate că forma (5 24) a acestei condiţii este cea ce corespunde exact denumirii date, expresia (5 23) este mult mai des întâlnită în cazul sistemelor practice deoarece ea permite ca atât filtrele de analiză cât şi cele de sinteză să fie sisteme cauzale Acest deziderat, precum şi cerinţa de tip PR şi aproximarea răspunsului în frecven ţă ideal al filtrelor (cel din figura 5 3) constituie punctul de plecare în dimensionarea practică a unor serii largi de bănci de filtre, [Dau 88], [Vai 88], [Vet 92] În cele ce urmează vom analiza modul în care se reflectă cerinţa de tip PR în construcţia filtrelor de analiză şi sinteză utilizate Se observă faptul că în structura sistemului din figura 5 17 pe fiecare cale sunt implicate secvenţe similare de operaţii: filtrare-subeşantionare-interpolare-filtrare Folosind echivalenţele filtrare-subeşantionare şi interpolare-filtrare, prezentate în paragrafele anterioare (§5 1 4 2 , §5 1 4 4 ), se poate schimba ordinea operaţiilor din secvenţa mai sus menţionată Astfel, conform schemelor echivalente din figurile 5 10 şi 5 16, noua ordine a acestor operaţii va fi: subeşantionare-filtrare-filtrare-interpolare S-a obţinut astfel ca cele două sisteme de filtrare, care sunt liniare şi invariante în timp, să fie conectate în cascadă Acest lucru ne permite caracterizarea ansamblului format din cele două operaţii de filtrare prin intermediul unei sigure filtrări echivalente Se observă, de asemenea, că schemele echivalente din figurile 5 10 şi 5 16 implică abordarea acestor operaţii în termenii reprezentărilor polifază asociate atât semnalelor cât şi filtrelor ce apar Folosind notaţia (5 10) pentru transformatele Z ale componentelor polifază implicate, caracterizarea unei căi j a sistemului din figura 5 17 poate fi făcută în termenii funcţiilor ppp~p zX,()zY, ()zFşi ()zH Aceste funcţii verifică, conform (5 10): complexe notate prin () kkk,jk,j − 1M Mpk () () zXzzX = ∑ k 0k = − 1M Mpk () () zYzzY = ∑ k 0k = 1M− Mpk () () 1M, ,1,0j,zFzzF− == k,jj∑ 0k= Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 130 1M− ~Mpk− () () 1M, ,1,0j,zHzzH− == (5 25) k,jj∑ 0k= Se observă faptul că în timp ce sunt implicate reprezentările polifază directe asociate semnalelor de 1M, ,0j,zF−1M, ,0j,zH− intrare x[n] şi y[n] şi filtrelor de sinteză () filtrele de analiză () j=j= implică reprezentările polifază duale corespunzătoare Schema echivalentă a unei căi j a sistemului din figura 5 17 este prezentată în figura 5 18 ~p0 p Mz0↑ ↓ () zHMz() 0,jzF0,j x[n]y[n]d[n] jj 1p M-1~p↑ ↓ z() zF++ zHMz() 1,j1,j !!!!!! -M+1~p M-1p Mz↑ ↓ () zHMz() zF 1M,j− 1M,j− Figura 5 18 Sistemul echivalent căii j a unei bănci de filtre Partea centrală a schemei echivalente din figura 5 18 poate fi privită ca un sistem multiport liniar şi invariant în timp, un sistem cu M intrări şi M ieşiri Intrările sistemului sunt componentele polifază ale semnalului x[n] iar ieşirile sunt componentele similare ale semnalului y[n] Aplicând rezultatele (5 15), se obţine: − 1M pp~ () () () zXzHzD, 1M, ,0j− = ⋅= (5 26) ∑ ll,jj = 0l Considerând cele M rezultate (5 26) obţinute pentru diferitele valori j, şi aplicând rezultatului (5 20) sistemului din figura (5 17), se obţine: − 1M pp () () () ⋅= ∑ jk,jkzDzFzY(5 27) = 0j Ecuaţiile (5 26) şi (5 27) pot fi rescrise sub o formă mai compactă, folosind o notaţie matricială Astfel, fie # T =D () () () () [] 1M10MzD zDzDz− T# ppp [] () () () () =X 1M10MzX zXzXz− T# ppp [] () () () () =Y(5 28) 1M10MzY zYzYz− pp zXşi respectiv()zY, j=1,…,M-1; vectorii coloană ai funcţiilor Dj(z),() jj p~ {} =HH(5 29) () ( ) () () MMzHz:z= = 1M, ,0k,jk,jk,j− matricea polifază de analiză, şi p {} () ( ) () () =FF(5 30) MMzFz:z= = 1M, ,0k,jk,jk,j− matricea polifază de sinteză Cu notaţiile (5 28), (5 29) şi (5 30) ecuaţiile (5 26) şi (5 27) se rescriu sub forma compactă: ## zzzXHD⋅ () () () MMM= ##(5 31) T zzzDFY⋅ () () () MMM= Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 131 Din cele două ecuaţii vectoriale rezultă: ## T zzzzXHFY⋅ (5 32) = () () () () MMMM⋅ În expresia (5 32) recunoaştem o caracterizare a multiportului liniar mai sus amintit Condiţia de reconstrucţie perfectă (5 24) în termenii notaţiilor (5 28) este echivalent cu: ## zzXY= () () MM(5 33) ceea ce implică, conform rezultatului (5 32), condiţia necesară: T (5 34) () ⋅ () MMMzzIHF= De fapt, condiţia (5 34) este şi o condiţie suficientă pentru ca banca de filtre din figura 5 17 să fie cu reconstrucţie perfectă [Gop 93] În construcţia băncilor de filtre sunt utile următoarele echivalenţe, date sub forma unor teoreme, ale acestei condiţii de reconstrucţie perfectă a lor: Teorema 5 1 zF,zH formează filtrele de analiză şi respectiv de sinteză ale unei bănci de filtre de () (){} = 1M, ,0iii− tip PR dacă: − 1M δ=−−⋅+ ∑∑ kljj]lMn[f]kMn[h (5 35) = 0jn Demonstraţie: Transpunând identitatea vectorială (5 34) se obţine: T () () (5 36) ⋅ MMMzzIFH= Această identitate vectorială, (5 36), poate fi rescrisă sub forma unei mulţimi de identităţi scalare: − 1M pp~ =∀ δ=⋅ (5 37) () () ∑ kll,jk,jzFzH, 1M, ,1,0l,k− = 0j Considerăm funcţia: − 1M −−⋅+= [] ∑∑ jj]lMn[f]kMn[hl,kg = 0jn ∀ pentru Zn∈ se verifică imediat proprietatea: ++ l,kgMnl,Mnkg= [][] −∈ pentru orice {} Zl,1M, ,1,0k∈ −=∈−∈ Fie ,mMrl+ Zr,1M, ,1,0m, atunci []l,kg va avea forma: {} − 1M α=−−⋅+ () [] ∑∑ m,kjjr]mnrM[f]kMn[h = 0jn Aplicând transformata Z expresiei de mai sus, după variabila independentă r, se obţine: − 1M pp~ () () () Λ=⋅ ∑ m,km,jk,jzzFzH = 0j zΛ identitatea (5 37) ne arată faptul că funcţia ()este identic nulă, cu excepţia cazului km= m,k 0r= Rezultă, aplicând transformata Z inversă, [] pentru km≠ Pentru km=avem m,kα () Cz,1z∈rδrα α =Λ , deci [] Astfel, rezultă că această secvenţă [] este identic nulă cu k,k∀rk,k=k,k [] 0l,kgα excepţia punctului r=0 Însă 0r= implică ml=, caz în care se poate scrie [] Rezultă l,k= imediat identitatea cerută: = [] kll,kgδ Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 132 Teorema 5 2 zF,zH formează filtrele de analiză şi respectiv de sinteză ale unei bănci de filtre de () (){} = 1M, ,0iii− tip PR dacă: δ⋅δ=−⋅ ∑ ijnji]kMn[f]k[h(5 38) k Demonstraţie: −⋅=α Definim funcţia auxiliară [] ∑ ji]kMr[f]k[hr Transformata Z a acestei secvenţe rezultă de k {}() () () α forma:[] zFzHMrZ↓ ji= Folosind reprezentările polifază (5 25) ale celor două funcţii, expresia de mai sus poate fi scrisă sub forma: − − 1M1M − MplMpk~ () () () () zFzzHzM =↓ ⋅↓ zFzHM() ∑∑ ji() l,jk,i = = 0l0k Ţinând cont de identitatea: m  Mmkzk =  zM(5 39) =↓ ()   restin0  = şi cum lk−nu poate să fie multiplu întreg al lui M, pentru nici o valoare 1M, ,1,0l,k−, rezultă: − 1M pp~ () () ) () zFzH =↓ ⋅ zFzHM() ∑ ji ( k,jk,i = 0k Înlocuind în această relaţie expresia scalară a identităţii (5 34) găsim: − 1M pp~ () () =∀ δ=⋅ (5 40) ∑ ijk,jk,izFzH, 1M, ,1,0j,i− = 0k şi aplicând transformata Z inversă rezultatului obţinut, se obţine identitatea (5 38) Observaţie: Teoremele 5 1 şi respectiv 5 2 deduc condiţii temporale, ce implică direct secvenţele răspuns la impuls ale filtrelor de analiză şi sinteză, echivalente condiţiilor necesare şi suficiente (5 34) sau (5 36) date în termenii unor transformate Z Rezultatele obţinute permit obţinerea, prin particularizare, a unor expresii de condiţii necesare, exprimate sub diverse forme, dintre care cele mai utile sunt cele exprimate în domeniul frecvenţă zH şi respectiv ()zF, produsul acestora Folosind reprezentările polifază (5 25) ale funcţiilor() jj rezultă de forma: 1M− MpMp~ () () () zFzHzFzH⋅1M, ,1,0j− =⋅=∀ , (5 41) () k,jk,jjj∑ 0k= Pe de altă parte, condiţia (5 37) trebuie să fie satisfăcută pentru orice valoare a variabilei z, rezultă M că ea trebuie să fie satisfăcută şi pentru orice valoare a lui z Astfel, ea poate fi scrisă: − 1M MpMp~ () ∀ δ=⋅ (), 1M, ,1,0l,k− ∑ kll,jk,jzFzH= = 0j Însumând expresia (5 41) după variabila j, şi ţinând cont de identitatea de mai sus, se obţine: Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 133 −− 1M1M1M−  ~MpMp  () () zFzHzFzH= ⋅=⋅ () () ∑∑∑ k,jk,jjj  === 0k0j0j  −−− 1M1M1M ~MpMp  () () M1zFzH= = ⋅= ∑∑ k,jk,j∑  == 0k0j0k=  Rezultă, deci: 11M− (5 42) () () 1zFzH= ∑ jj⋅ M 0j= o condiţie necesară ca sistemul să poate să fie de tip “cu reconstrucţie perfectă” Se observă faptul că această condiţie este una ce implică în mod direct filtrele de analiză şi respectiv de sinteză din structura sistemului din figura 5 17 Restricţia pe cercul unitate din planul complex a identităţii (5 42) implică: 1∞ (5 43) () () 1FH= ⋅ξ ∑ jjξ M = j−∞ În mod similar, echivalentul din domeniul frecvenţă a condiţiei (5 38) poate fi exprimată sub forma: ∞ 111  ()() =π−ξ⋅π−ξ (5 44)  ∑ ijjik2Fk2Hδ  −∞= kMMM În concluzie, condiţiile frecvenţiale ce trebuie să fie verificate de către o bancă de filtre cu reconstrucţie perfectă sunt cele date de relaţiile (5 43) şi (5 44) Definiţia 5 1 Prin definiţie o bancă de filtre cu structura din figura 5 17 este unitară dacă: 1T−1T− () () sau, echivalent ()(5 45) ⋅IHH=⋅ () MMMzzIHH=MMMzz Definiţia 5 1 implică, în cazul sistemelor cu reconstrucţie perfectă şi unitare, egalitatea: 1− () () HF(5 46) MMzz= condiţie verificată dacă se aleg răspunsuri la impuls de forma: ]n[h]n[f− (5 47) jj= Înlocuind această condiţie suficientă în identităţile (5 35) şi (5 38) se obţin expresii ale unor condiţii necesare şi suficiente ca o bancă de filtre de tip PR să fie unitară Astfel, se poate spune că o bancă de filtre cu reconstrucţie perfectă este unitară dacă sunt verificate condiţiile: − 1M δ=+⋅+ ∑∑ kljj]lMn[h]kMn[h(5 48) = 0jn şi, respectiv: δ⋅δ=+⋅ ∑ ijkji]nMk[h]n[h(5 49) n În mod similar, condiţiile frecvenţiale (5 43) şi (5 44) se pot scrie în acest caz sub forma: 12∞ (5 50) () 1H= ∑ jξ M = j−∞ şi, respectiv: 1M−  *111 ()() =π−ξ⋅π−ξ (5 51)  ∑ ijjik2Hk2Hδ  = 0kMMM Observaţii: Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 134 zH cauzal implică un filtru de sinteză ()zF a) conform (5 47) un filtru de analiză () jj anticauzal; b) având în vedere cele două expresii similare (5 23) şi (5 24) ale condiţiei de reconstrucţie perfectă, observaţia de mai sus implică faptul că singurele sisteme unitare realizabile implică filtre cu răspuns finit la impuls, de tip FIR, caz în care filtrele de sinteză vor putea fi făcute cauzale printr-o operaţie de translaţie (conform (5 47 ele rezultând de tipul finit-necauzal); c) conform concluziilor de mai sus, notând cu L lungimea maximă a filtrelor de analiză, rezultă că orice sistem unitar cu reconstrucţie perfectă realizabil va introduce o întârziere minimă în reconstrucţie de L-1; d) considerând M=2, deci un sistem pe două căi, în expresiile (5 48), (5 49), (5 50) şi (5 51) recunoaştem condiţiile necesare şi suficiente, prezentate în §3 1 1, ca filtrele () zH 0 şi()să genereze un sistem Wavelet ortonormal Conform notaţiilor din capitolul III, zH 1 H0 se identifică cu fitrul trece-jos H, în timp ce filtrul H1 este filtrul trece-sus, notat G În concluzie, dacă filtrele de analiză sunt filtre de tip FIR, rezultă filtre de sinteză tot de tip FIR, iar zHîn variabila sistemul este realizabil Filtre de analiză de tip FIR înseamnă expresii polinomiale() j -1 zH de grad maxim va corespunde filtrului de lungime maximă Notând cu L-1 z Polinomul () j zH acest grad maxim rezultă lungimea maximă L a filtrului corespunzător Faptul că expresiile () j zH, definită conform (5 23), cu componente ce sunt sunt polinoame implică o matrice polifază () M tot polinoame Notând cu K-1 gradul maxim al acestor polinoame, trebuie să avem: ≤− (5 52) MKL1KM≤ () Relaţia (5 52) ne indică faptul că, pentru K cunoscut, lungimea maximă a filtrelor sistemului asociat zH nu poate fi mai mare decât MK matricii () M Având în vedere analogia dintre sistemele construite folosind bănci de filtre cu reconstrucţie perfectă unitare pe două căi şi sistemele Wavelet ortonormale (vezi §3 1 1 6), filtrele () zH sunt 0 zH, j=1,2,…,M-1, poartă şi denumirea de denumite şi filtre de scară în timp ce celelalte filtre () j filtre Wavelet Însă, spre deosebire de cazul M=2, unde filtrul de scară () zH defineşte în mod 0 univoc filtrul Wavelet () zH, pe baza restricţiilor (5 48) şi (5 49), în cazul 2M> 1 soluţia pentru filtrele Wavelet nu este unică Acest lucru se datorează faptului că se dispun doar de cele două restricţii anterior amintite în timp ce numărul necunoscutelor (coeficienţii filtrelor Wavelet) a crescut considerabil Trebuie menţionat faptul că nu orice bancă de filtre cu reconstrucţie perfectă şi unitară pe două căi corespunde unui sistem Wavelet ortonormal După cum s-a specificat şi în §3 1 1 6 , sistemele Wavelet ortonormale implică şi o condiţie de normare a coeficienţilor filtrelor de scară (condiţia dată de relaţia (3 8)) Această condiţie, în cazul general a M benzi se exprimă sub forma: M]n[h= (5 53) 0∑ n În mod similar poate fi abordată şi problema băncilor de filtre ce corespund unor sisteme Wavelet cu o anumită regularitate impusă Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 135 Definiţia 5 2 Un filtru de scară al unei bănci de filtre pe M căi este N-regular dacă funcţia () admite o zH 0 factorizare de forma: 1N () −− 1M1− () () zQz z1zH+ ++= ()(5 54) N0 M unde Q(z) este o funcţie în variabila z ce nu se anulează în punctele de forma k2π j 1M, ,0k,ezM− = k= O consecinţă directă a definiţiei 5 2 constă în faptul că dacă un filtru de scară () zH este N-regular 0 k2π j = atunci atât () zH cât şi primele N-1 derivate ale ei se anulează în punctele 1M, ,0k,ezM− 0k= ⋅ Acest lucru este echivalent cu impunerea a unui număr de () restricţii liniare filtrului de 1NM− scară Se observă faptul că factorizarea (5 54) este o generalizare a celei date de (3 92) pentru cazul sistemelor Wavelet cu N momente nule Evident, (3 92) se obţine prin considerarea restricţiei (5 54) ξ j ez, în cazul M=2 pe cercul unitate, 1z=sau = 5 1 6 Bănci de filtre pe M căi neuniforme Băncile de filtre analizate în paragraful precedent au fost cele uniforme caracterizate prin faptul că atât filtrele de analiză cât şi cele de sinteză sunt cu benzi de frecvenţe egale şi se lucrează cu acelaşi factor de subeşantionare şi, respectiv, de interpolare pe fiecare cale a sistemului Acesta au valoarea critică M pentru a nu creşte cantitatea totală de informaţie prin trecerea unui semnal prin are sistem Astfel de sisteme sunt structuri de bănci de filtre foarte particulare Să considerăm un caz mai general prezentat în figura 5 19 d0[n] M1↑ ↓ H0(z)F(z)M1 0 d1[n]y[n] M2x[n]↑ ↓ H1(z)F(z)M2+ 1 !!!! dM-[n] 1 MMH(z)↑ ↓ M-1F(z)MM M-1 Figura 5 19 Bancă de filtre neuniformă pe M căi zHprezentate în figura 5 20 cu răspunsurile în frecvenţă al filtrelor de analiză () j H0(ξ) H1(ξ ) ) "HM-1(ξ ξ ξ 1ξ M-1 π 2ξ ) Figura 5 20 Răspunsul în frecvenţă ideal al filtrelor Hj(ξ ξ ξξ Deoarece lăţimile de bandă ale filtrelor de analiză nu sunt egale, rezultă că nici factorii de subeşantionare şi respectiv de interpolare nu vor fi egali pentru diferitele căi ale sistemului În Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 136 figura 5 19 aceştia au fost notaţi cu Mj, j=1,…,M Valoarea critică a lui Mj este direct legată de ξ lăţimea de bandă ξa filtrului de analiză de pe calea j Această dependenţă a factorului critic j1j− + de subeşantionare de lăţimea de bandă a filtrului a fost studiată în detaliu de către Daubechies în [Dau 88] pentru cazul filtrelor QMF (bănci de filtre de tip PR pe două căi) Importanţa băncilor de filtre neuniforme rezidă în faptul că există asemenea sisteme cu reconstrucţie perfectă şi unitare [Vai 87], [Vai 88], [Dau 88] Mai mult, sistemele Wavelet biortogonale şi ortogonale corespund unor subclase de sisteme neuniforme De exemplu, în §3 1 1 5 a fost prezentat algoritmul FWT şi algoritmul IFWT de calcul a descompunerilor unor semnale în baze Wavelet ortonormale în timp ce în §3 1 1 6 s-a prezentat analogia dintre aceşti algoritmi şi conectarea în cascadă a unor bănci de filtre pe două căi identice Astfel, figura 3 6 prezintă sistemului echivalent aplicării algoritmului FWT pe trei nivele succesive în timp ce figura 3 7 prezintă sistemul de reconstrucţie, echivalent aplicării algoritmului IFWT rezultatului descompunerii anterioare Cum reconstrucţia perfectă este asigurată, rezultă că cele două sisteme din figurile 3 6 şi 3 7 formează împreună un sistem de tip PR Sistemul din figura 3 6 corespunde părţii de analiză în timp ce sistemul din figura 3 7 reprezintă partea de sinteză a acestui sistem echivalent Considerând, de exemplu, partea de analiză, a acestui sistem şi folosind echivalenţele de sisteme prezentate în §5 1 4 , se găseşte că aceasta este echivalentă cu un sistem neuniform pe patru căi, cu structura din figura 5 21 unde răspunsurile în frecven ţă ale celor patru filtre se exprimă, îns[n] 3 8 ξξ termenii răspunsurilor în frecvenţă () H şi ()G,H0(z)↓ conform cu: d3[n] 8 () ( ) ( ) () H2H4HHH1(z)↓ ξ⋅ξ⋅ξ=ξ 0 () () () () H2H4GHs0[n] ξ⋅ξ⋅ξ=ξ 1 d2[n] () ( ) () H2GHH(z)↓ ξ⋅ξ=ξ 224 () () GH ξ=ξ 3 d1[n] H3(z)↓ 2 Urmând o procedură similară, se găseşte sistemul echivalent al părţii de sinteză din figura 3 7 de Figura 5 21 Sistem echivalent celui din figura 3 6 forma celui din figura 5 22 , unde: *** s3[n] () ( ) ( ) () ξ⋅ξ⋅ξ=ξ 0H2H4HF F0(z)↑ 8 *** () ( ) ( ) () ξ⋅ξ⋅ξ=ξ 1H2H4GF **d3[n] ξ⋅ξ=ξ () ( ) () 8 2H2GFF1(z)↑ s0[n] * + () () ξ=ξ 3GF d2[n] 4 F2(z)↑ d1[n] 2 F3(z)↑ Figura 5 22 Sistem echivalent celui din figura 3 7 5 2 Construcţia băncilor de filtre cu reconstrucţie perfectă pe două căi Având în vedere importanţa majoră a băncilor de filtre de tip PR (cu reconstrucţie perfectă), importanţă dată în special de analogia cu sistemele Wavelet, vom aborda în acest paragraf problemele legate de construcţia efectivă (dimensionare) a unor asemenea sisteme Schema de principiu a unei bănci de filtre pe două căi se prezintă în figura 5 23 Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 137 d0[n] 2F(z)↑ H0(z)↓ 02 x[n] y[n] + d1[n] 2↑ H1(z)↓ F1(z)2 Figura 5 23 Bancă de filtre uniformă pe două căi Răspunsul în frecvenţă ideal al filtrelor de analiză () şi () este prezentat în figura 5 24 zHzH 01 ) )H1(ξ 1H0(ξ ξ π /2 π Figura 5 24 Răspunsul în frecvenţă ideal al filtrelor Hj(ξ ), j=1,2 ξ ξξ Deoarece se urmăreşte construcţia unor bănci de filtre, se caută caracterizarea doar a celor realizabile care, conform observaţiilor din paragraful anterior, dacă se doreşte reconstrucţie perfectă, trebuie să se folosească doar filtre de analiză şi sinteză de tip FIR Vom nota cu h0[n] şi h1[n] răspunsurile la impuls ale celor două filtre de analiză () zH şi respectiv 0 zH Reprezentarea polifază directă a unei secvenţe x[n] este: () 1 T# [] [ ] 102]n[x]n[xnx= () ]n[x2]n2[x]n[x↓ = 0= cu:(5 55) ]1n[x2]1n2[x]n[x− =−= () 1↓ Funcţiile () şi () sunt definite prin: zHzH 01 ∞∞ −− kk ()() == ∑∑ 00z]k[hzH,11z]k[hzH(5 56) k−∞k −∞== Reprezentările polifază duale ale celor două funcţii sunt: −− k~k~ =+= ∑∑ 00,0z]k2[hH, 01,0z]1k2[hH(5 57a) kk −− k~k~ =+= ∑∑ 10,1z]k2[hH, 11,1z]1k2[hH(5 57b) kk Bineînţeles, conform (5 25), au loc egalităţile: 212~~− () () = () 1,00,00zHzzHzH+ 212~~− () () () = (5 58) 1,10,11zHzzHzH+ zHse scrie: Matricea polifază () 2 ~~  () () zHzH 1,00,0 = ()  ~~z2H(5 59) () () zHzH   1,10,1  În mod similar se defineşte şi matricea polifază de sinteză, folosind reprezentările polifază directe ale filtrelor de sinteză: Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 138 () () zFzF   1,00,0 ()(5 60) zF =   2 () () zFzF 1,10,1   unde componentele polifază directe ale filtrelor de sinteză verifică: 22 () () () += 1,00,00zFzzFzF⋅ 22 () () () += (5 61) 1,10,11zFzzFzF⋅ Definiţiile (5 38) devin: # T D () () () [] 102zDzDz= T# pp [] () () () X 102zXzXz= T# pp [] () () () Y(5 62) 102zYzYz= Pentru sistemul din figură 5 23 se pot stabili următoarele ecuaţii: ## zzzXHD⋅ () () () 222= ##(5 63) T zzzDFY⋅ () () () 222= În acest caz, condiţia (5 34) de reconstrucţie perfectă se poate scrie: ~~   () () 01zHzHzFzF   () ()   0,10,0T 1,00,0 = ⋅ = () ()   ~~zz22HF(5 64)     () () 10zHzHzFzF () () 1,11,0     1,10,1     Relaţia (5 64) este echivalentă cu patru condiţii scalare: ~~ () () () () 1zHzFzHzF= +⋅ 0,10,10,00,0⋅ ~~ () () () () 0zHzFzHzF= +⋅ 1,10,11,00,0⋅ ~~(5 65) () () () () 0zHzFzHzF= +⋅ 0,11,10,01,0⋅ ~~ () () () () 1zHzFzHzF= +⋅ 1,11,11,01,0⋅ Condiţiile (5 35) şi (5 38), în termenii răspunsurilor la impuls ale filtrelor de analiză şi sinteză, deci al secvenţelor hi[n] şi fi[n], se rescriu sub forma: () δ=−−⋅++−−⋅+ ∑ kl1100]ln2[f]kn2[h]ln2[f]kn2[h(5 66) n şi, respectiv: 1,0j,i]nk2[f]n[h= δ⋅δ=−−⋅ (5 67) ∑ ijkji∀ n În domeniul frecvenţă condiţia (5 51) poate fi exprimată sub forma: 1 111  ()() =π−ξ⋅π−ξ (5 68)  ∑ ijjik2Fk2Hδ  = 0k222 ce implică, prin dezvoltare, şi prin înlocuirea variabilei ξ cu 2ξ: () () ( ) ( ) 0FHFH= −ξ⋅π−ξ+ξ⋅ξ (5 69a) 1010π () () () () 2FHFH= ⋅ξ+ξ⋅ξ (5 69b) 1100ξ O bancă de filtre unitară verifică, conform definiţiei 5 1, identitatea: ~~~~ −− 11   01zHzHzHzH () () () ()   1,00,00,10,01T − () () = ⋅=    ~~~~zz22HH(5 70)   −− 11 10zHzHzHzH () () () ()      1,10,11,11,0    echivalentă cu condiţiile scalare: Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 139 ~~~~11− − ()() ()() 1zHzHzHzH= +⋅ 0,10,10,00,0⋅ ~~~~11− − ()() ()() 0zHzHzHzH= +⋅ 1,10,11,00,0⋅ (5 71) ~~~~11− − ()() ()() 0zHzHzHzH= +⋅ 0,11,10,01,0⋅ ~~~~11− − ()() 1zHzHzHzH= ()() +⋅ 1,11,11,01,0⋅ În unele lucrări de referinţă, [Gop 92a], [Gop 93], această proprietate de unitaritate apare sub denumirea de paraunitaritate sau ortogonalitate Punând: 1− () () HF 22zz= condiţiile (5 65) vor fi verificate, rezultând o bancă de filtre unitară cu reconstrucţie perfectă În acest caz, coeficienţii filtrelor de sinteză se găsesc, în funcţie de cei ai filtrelor de analiză, pe baza relaţiei (5 47) În mod similar, condiţiile (5 66) şi (5 67) pot fi particularizate în termenii doar a coeficienţilor filtrelor de analiză Astfel, se poate spune că o bancă de filtre pe două căi de tip PR este unitară, dacă sunt verificate condiţiile: () δ=+⋅+++⋅+ ∑ kl1100]ln2[h]kn2[h]ln2[h]kn2[h(5 72) n şi, respectiv: 1,0j,i]nk2[h]n[h= δ⋅δ=+⋅ (5 73) ∑ ijkji∀ n În mod similar, condiţiile frecvenţiale (5 69a) şi (5 69b) se pot scrie, în acest caz, sub forma: ** ()() ()() 0HHHH= −ξ⋅π−ξ+ξ⋅ξ (5 74) 1010π şi, respectiv: 22 2HH= ξ+ξ ()() (5 75) 10 În terminologia prelucrărilor de semnale cele două părţi (de analiză şi respectiv de sinteză) ale unor băncile de filtre uniforme pe două căi de tip PR şi unitare sunt cunoscute şi sub denumirea de filtre modulate în cuadratură, filtre QMF, iar banca de filtre sub denumirea de sisteme de tip QMF, [Vai 87], [Dau 88], [Vet 89] Observaţii: H şi ()Hsunt funcţii periodice cu perioadaπ ξξ a) ţinând cont de faptul că funcţiile (), în 2 01 expresia (5 74) se recunoaşte condiţia (3 34) impusă filtrelor de scară şi respectiv Wavelet ce determină un sistem Wavelet În §3 1 am văzut că o asemenea relaţie este verificată de o alegere de forma: nd− = (5 76) () ]nd[h1]n[h− 01− a legăturii dintre răspunsurile la impuls implicate, unde d este un număr întreg impar Această alegere presupune o legătură dintre răspunsurile în frecvenţă ale celor două filtre de forma: ξ− *jd () ( ) π+ξ=ξ 01HeH caz în care condiţia (5 75) devine condiţia (3 21) impusă filtrului de scară al unui sistem Wavelet; b) se observă faptul că prin particularizarea i=j a expresiei (5 73) se obţine condiţia (3 22a), versiunea în domeniul timp al condiţiei (3 21), impusă filtrului de scară a unui sistem Wavelet; c) se poate trage concluzia că cerinţele de reconstrucţie perfectă şi de sistem unitar impuse unei bănci de filtre uniforme pe două căi implică aceleaşi condiţii (restricţii) impuse sistemului ca şi cele de existen ţă a sistemelor Wavelet ortonormale cu o singură excepţie, şi anume, condiţia de Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 140 normare (3 8), ce nu se regăseşte în acest caz Impunând această restricţie, este posibilă utilizarea teoriei băncilor de filtre de tip PR unitare pentru caracterizarea sistemelor Wavelet ortonormale cu suport compact, şi invers, anumite proprietăţi ale sistemelor Wavelet pot fi traduse în proprietăţi similare ale unor bănci de filtre; d) cum coeficienţii filtrelor Wavelet pot fi calculaţi, conform (5 76), dacă sunt cunoscuţi cei ai filtrului de scară, rezultă că o bancă de filtre de tip PR unitar este determinată dacă se cunosc toţi ξ coeficienţii ai filtrului de scară () 0H; ξ e) dacă filtrul de scară () este un filtru de tip FIR de lungime L=2N, atunci se obţine 0H ≥ ξξξ filtru Wavelet () Cele două funcţii () şi () sunt 1Hde tip FIR cauzal pentru 1Ld−0H1H ξj polinoame trigonometrice (polinoame în variabila complexă e) de grad maxim L-1; f) cerinţa (5 34) faţă de sistemul din figura 5 23 a fost dedusă pornind de la forma (5 24) a condiţiei de reconstrucţie perfectă, ceea ce, după cum s-a constatat deja, în cazul unor filtre de analiză de tip FIR cauzale implică filtre de sinteză de tip FIR anticauzale, deci nerealizabile Acceptând exprimarea condiţia de reconstrucţie perfectă sub forma (5 23), cu a=1, deci de forma: ]nn[x]n[y− 0= cu un n0 egal cel puţin cu L-1, unde L reprezintă lungimea maximă a filtrelor utilizate, se obţine o structură de sistem cu filtre cauzale, deci realizabile; g) în §3 1 1 8 a fost prezentată o parametrizare a spaţiului sistemelor Wavelet cu suport compact, propusă de Vaidyanathan, o parametrizare bazată pe cea a spaţiului băncilor de filtre unitare de tip PR construite folosind filtre de tip FIR Ea este dată de ecuaţia (3 110) şi implică M π parametri unghiulari independenţi, α, cu valori cuprinse în domeniu [, asociaţi sistemelor 2,0 i) QMF cu reconstrucţie perfectă, construite cu filtre de tip FIR cu lungime L=2M h) Parametrizarea de mai sus indică faptul că avem de-a face cu o clasă largă de sisteme QMF, chiar şi pentru o lungime a filtrelor impusă Clasa acestor filtre poate fi restrânsă dacă se impun condiţii suplimentare De exemplu, se poate impune: - condiţia unei bune aproximări a caracteristicii ideale din figura 5 24, - condiţia de fază liniară (simetria răspunsului la impuls), - condiţia de lungime minimă a răspunsului la impuls cu un anumit grad de regularitate impus, - condiţia ca expresiile eşantioanelor răspunsului la impuls să fie cât mai simple Toate aceste condiţii sunt foarte importante atunci când se pune problema codării în mai multe subbenzi deoarece favorizează stabilitatea numerică a algoritmilor care implementează sistemele din figurile 3 6 şi 3 7 Această stabilitate este asigurată dacă filtrele îndeplinesc o anumită condiţie de regularitate [Rio 93], [Dau 88], [Dau 92] Condiţia de regularitate este partea care leagă teoria sistemelor de codare subbandă de teoria funcţiilor Wavelet Prin particularizarea definiţiei 5 2 pentru M=2 se obţine condiţia de N-regularitate a unui filtru de scară () zH Astfel, în acest caz, funcţia ()zH poate fi factorizată sub forma: 00 N 1−  z1 +  () () zQzH 0=  2   kjπ unde Q(z) este o funcţie în variabila z ce nu se anulează în punctele de forma 1,0k,ez= k= ξ j ez expresia (5 76) se reduce la condiţia (3 92) de regularitate a unui Se observă faptul că pentru = sistem Wavelet ortonormal Acest lucru permite abordarea regularităţii băncilor de filtre în termenii regularităţii unor funcţii Wavelet asociate Abordarea regularităţii a unor sisteme Wavelet a fost făcută în §3 1 1 7 Astfel, concluziile din acel paragraf sunt aplicabile în mod direct şi în cazul Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 141 băncilor de filtre Acest lucru ne permite, de exemplu, construirea unor sisteme de codare în subbenzi optimale sau suboptimale în codarea unor clase largi de semnale cu un anumit grad de regularitate Mai mult, sunt aplicabile procedurile de construcţie a unor filtre regulate cu suport compact prezentate în §3 1 1 8 5 3 Sisteme de codare în subbenzi (SBC) optimale 5 3 1 Analogia SBC pe M căi uniforme cu sistemele de codare prin transformări ortogonale Fie sistemul de codare în subbenzi din figura 5 25 y0[n]]n[yˆ0 MH(z)↑ ↓ 0F(z)MQ0(b0) 0 ]n[yˆ 1 ]n[yˆy1[n] Mx[n]↑ ↓ H1(z)M+Q1(b1) F1(z) !!!! ! ˆ ]n[y yM-[n]1M− 1 MH(z)↑ ↓ M-1MQM-1(bM-1) FM-1(z) Figura 5 25 SBC uniform pe M căi Sistemul de codare în subbenzi, SBC, din figura 5 25 este construit folosind o bancă de filtre uniformă pe M căi, similar celei din figura 5 17, în care au fost incluse, în partea de codare, un , număr de M cuantizoare, ce cuantizează valorile secvenţelor subeşantionate, 1M, ,0j],n[y− j= obţinute la ieşirile celor M filtre de analiză Partea de reconstrucţie (de sinteză) a sistemului este identic cu cel prezentat în figura 5 5 Răspunsurile în frecven ţă ideale ale filtrelor de analiză sunt prezentate în figura 5 2 În paragrafele anterioare am văzut că, în ipoteza absenţei celor M cuantizoare, este posibilă construirea sistemului din figura 5 25 astfel încât la ieşirea sa să se obţină folosind filtre de analiză şi sinteză de tip FIR cauzale (realizabile) Dezideratul de ]nn[x]n[y− 0= mai sus nu se mai poate obţine dacă se introduc în schemă cele M cuantizoare Aceste blocuri, după cum s-a văzut în capitolul 2, realizează compresia efectivă de semnal, în timp ce banca de filtre din structura SBC este folosită pentru schimbarea spaţiului de reprezentare a semnalului ce urmează a fi codat Cuantizoarele sunt blocuri neliniare, ce presupun pierderea unei cantităţi de informaţie a semnalului prelucrat, introducând astfel, în mod inerent, erori la reconstrucţia semnalului Cu alte cuvinte, secvenţele]n[yˆobţinute la ieşirea cuantizoarelor nu sunt identice cu secvenţele j 1M, ,0j],n[y− Cele mai des utilizate măsuri de evaluare ale acestor erori de reconstrucţie j= (distorsiuni) sunt eroarea medie pătratică, definită conform (2 4), şi raportul semnal pe zgomot de cuantizare, SQNR, cu definiţia dată de relaţia (2 5) În contextul existenţei unor constrângeri de tipul rată de bit medie impusă sau limită maximă a nivelului distorsiunii de reconstrucţie, o caracterizare eficientă a cuantizoarelor se poate face în termenii funcţiilor rată-distorsiune şi distorsiune-rată Aceste noţiuni au fost introduse în §1 7 şi explicitate pentru anumite cazuri particulare de cuantizoare în capitolul 2 În condiţia în care se cunoaşte structura cuantizoarelor folosite ne vom referi la funcţia rată-distorsiune (distorsiune-rată) operaţională, ce caracterizează de Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 142 fapt o clasă de cuantizoare de acelaşi tip (cu parametri de construcţie similari) În absenţa acestor specificaţii ne vom referi la limita teoretică ale acestor funcţii, prezentate în §1 7 Se presupune că se urmăreşte codarea unei secvenţe x[n], o realizare particulară a unui proces aleator staţionar, X, gaussian de medie nulă, prin metoda codării în subbenzi, având specificat un număr mediu de biţi, b, utilizabili pentru codarea unui eşantion (rată de bit medie) Dacă funcţia densitate spectrală de putere a procesului de intrare, DSPX , este o funcţie descrescătoare în variabila frecven ţă ξ, este firesc să încercăm să redistribuim biţii disponibili codării diferitelor subbenzi în funcţie de puterea procesului aleator din acestea Această problemă seamănă foarte mult cu cea pusă în cazul codării prin transformări ortogonale în §4 5 În acest paragraf vom arăta că rezultatele din §4 5 cu privire la soluţia alocării de bit optimale pot fi folosite, cu mici modificări, soluţionării problemei alocării de bit optimale în cazul sistemelor SBC de tipul celui din figura 5 25 Similitudinile dintre cele două cazuri, cel al codărilor prin transformărilor ortogonale şi cel al codărilor în subbenzi frecvenţiale sunt sugerate chiar de analogia sistemelor Wavelet ortonormale cu bănci de filtre de tip PR unitare Astfel, transformarea FWT reiterat, pe un număr finit de nivele, pe lângă faptul că reprezintă o transformare ortogonală a unui semnal, este echivalentă cu o bancă de filtre neuniformă pe un număr finit de căi Exemple au fost date în figurile 5 21 şi 5 22 Similitudinea dintre cele două cazuri poate fi pusă în evidenţă, pentru sistemul SBC din figura 5 25, dacă considerăm o schemă echivalentă a acestuia, prezentată în figura 5 26 ˆ y0[n]]n[y0 Mz0↑ M0 Q0(b0)↓ z ]n[yˆ 1 y1[n]x[n]y[n] 1 M-1↑ Q1(b1)↓ zMz+ zH() () MzMF !!! yM-[n]!! 1 -M+1 Mz↑ MM-1 QM-1(bM-1)↓ z Figura 5 26 Sistemul echivalent sistemului SBC din figura 5 25 zH şi ()zF reprezintă matricile polifază de analiză şi respectiv de sinteză, definite unde () MM conform (5 29) şi (5 30) În cazul în care sistemul din figura 5 25 este construit folosind o bancă de filtre de tip PR unitară rezultă, conform definiţiei 5 2 a proprietăţii de unitaritate, că matricile zH şi respectiv ()zF vor fi matricile unor transformări ortogonale Semnalele de intrare ale () MM zH sunt diferitele componente polifază, 1M, ,1,0j],n[x− , ale blocului de transformare () Mj= secvenţei de intrare x[n], cu definiţia dată de relaţia (5 8) Ieşirile acestui bloc, secvenţele 1M, ,1,0j],n[y− pot considerate şi ele ca fiind componentele polifază ale unui semnal, care j= însă nu este cel notat cu y[n] în figura 5 26 Aceste secvenţe au însă proprietatea că se încadrează zH Blocul de transformare fiecare în câte o subbandă definită de către un filtru de analiză () j zF, realizează şi el o transformare ortogonală a vectorului de valori de la intrarea sa, matricea () M zF reprezentând matricea transformării ce verifică, conform proprietăţii de reconstrucţie () M perfectă, relaţia (5 44) Bineînţeles, în absenţa cuantizoarelor sistemul din figura 5 26 este o bancă de filtre de tip PR unitară, deci oferă reconstrucţie exactă Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 143 5 3 2 Procedură de alocare de bit optimală Analogia SBC cu transformările ortogonale este deci clarificată Procesul de codare în subbenzi a secvenţei x[n], ce este o realizare particulară a unui proces aleator staţionar X, gaussian zH şi de medie nulă poate fi privită ca şi o codare printr-o transformare ortogonală, cu matricea () M T# gaussian, cu elementele date de a unui vector [] = [ ] 1M10M]n[x ]n[x]n[xnx− componentele polifază 1M, ,1,0j],n[x− ale secvenţei de intrare Se caută procedura de j= alocare de bit cea mai eficientă, ce corespunde unei codări a vectorului T# , rezultat în urma unei transformări ortogonale a = [] [ ] 1M10M]n[y ]n[y]n[yny− # nx, şi care, în condiţiile unui număr mediu de biţi pe simbol disponibil impus, oferă vectorului [] M eroarea de reconstrucţie minimă Pe scurt, se doreşte codarea optimă a unui vector de forma ### TT , rezultat în urma unei operaţii de forma XY⋅ = A, unde A este o matrice [] M21Y YYY= unitară, folosind un număr mediu de b biţi/eşantion O asemenea procedură de alocare de bit a fost # prezentată în §4 5 În vederea codării a vectoruluiYde lungime M se dispune de un număr total de biţi Biţii sunt alocaţi neuniform diverselor componente ale acestora astfel încât să rezulte o bM⋅ distorsiune medie pătratică D minim posibilă De fapt, se caută M numere b1,b2, …,bM astfel încât : bMb bb⋅ +++ (5 77) M21= Prin codarea componentei Yi pe un număr de bi biţi vom obţine, la reconstrucţie, folosind distanţa Euclidiană, o eroare medie pătratică de aproximare dată de valoarea D(bi) a funcţiei distorsiune-rată Distorsiunea medie D poate fi calculată prin simpla mediere a celor M valori Di(bi): 1 ++= (5 79) () () ( )() MM2211bD bDbDD+ M Cu aceste notaţii, condiţia de optimizare a alocării de bit revine la căutarea acelor numere b1,b2, …,bM care minimizează valoarea distorsiunii D 2 Să notăm cu σ dispersia variabilei aleatore Yi Presupunem, de asemenea, că vectorul Y i # are componentele ordonate în odinea descrescătoare a dispersiilor, cum este în [] M21Y YYY= cazul prezentat în figura 5 4 Această condiţie este impusă doar din considerente de simplificare a notaţiilor utilizate Avem, deci, 2222 σ ≥≥σ≥≥σ≥σ (5 79) YYYY Mi21 Rezultate ale teoriei rată-distorsiune arată, [Sha 49], că distorsiunea minimă ce se poate obţine prin 2 , pe un număr de biţi b, este: codarea unei surse gaussiene de medie nulă şi dispersie σ Y i b22− 2bD⋅ σ= ()(5 80) Yi i Astfel, distorsiunea medie totală, ce rezultă prin codarea optimală a celor M componente gaussiene # ale vectorului [], se poate scrie: M21Y YYY= 1− − M21b22b22b22− () 2 22D⋅ σ++⋅σ+⋅σ= (5 81) M21YYYM Se caută, deci, numere b1,b2, …,bM ce verifică (5 77) şi care minimizează valoarea distorsiunii (5 81) în ipoteza (5 79) Ipoteza (5 79) ne va asigura de fapt că valorile optime bi vor verifica, în condiţiile (5 80), inegalitatea: ≥≥ (5 82) M21b bb≥ Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 144 Expresia de mai sus pune în evidenţă faptul că minimizarea (5 81) are loc dacă toate componentele acestei expresii sunt egale fapt ce implică o codare neuniformă, datorită dispersiilor diferite (o variabilă aleatoare cu o dispersie mai mare cere un număr de biţi mai mare pentru aceeaşi distorsiune) Minimizarea (5 81) supusă restricţiei (5 77) poate fi făcută folosind tehnica multiplicatorului lui Lagrange Calculul explicit a expresiilor bi în funcţie de dispersiile diferitelor # componente ale vectorului Y a fost făcut în §4 5 Rezultă, pentru cazul în care numărul de biţi b este suficient de mare astfel încât fiecărei componente să fie repartizate un număr nenul de biţi (ipoteza de rată de bit înaltă), expresii de forma: 2 σ 1Y i (5 83) M, 2,1i,logbb= = 2i+ 2M 2 Mσ Y∏ i 1i= Distorsiunea minimă teoretică este egală, în acest caz: MM b22b221− i− M22D⋅ σ=⋅σ= (5 84) ∑ YY∏ ii = 1i1iM= Se poate defini, în mod similar câştigului de transformare, definit conform (4 20) pentru codările prin transformare, câştigul de codare în subbenzi prin raportul distorsiunilor medii obţinute corespunzătoare cazurilor cu şi respectiv fără codare În cazul unui proces gaussian de intrare X, de 2 medie nulă şi dispersie σ, acest câştig poate fi exprimat sub forma: X 2 Xσ (5 85) () SBCMG= M 2 Mσ Y∏ i 1i= Definiţia (5 85) a câştigului de codare în subbenzi ne permite definirea SBC optimal pentru anumite semnale de intrare (cunoscute) Astfel SBC optimal este cel care maximizează (5 85) în condiţiile 2 unei dispersiiσ date X Observaţii: a) şi în aceste cazuri s-ar putea întâmpla ca pentru o valoare M*j ≥≥≥ (5 86) 0b bb bb= + M1*j*j21= Şi în acest caz, minimizarea (5 81) supus restricţiei (5 77) poate fi făcută folosind tehnica multiplicatorului lui Lagrange, obţinând rezultate similare (4 31); b) funcţia distorsiune-rată D(bi) este o caracteristică a unui cuantizor scalar Qi ideal, ea oferind o limită teoretică a distorsiunii obtenabile folosind cea mai bună metodă de codare în condiţiile în care se cunoaşte statistica semnalului de intrare; c) expresia (5 80) a funcţiei distorsiune-rată D(bi) este una ideală ce corespunde codării unei surse gaussiene i i d cu cea mai bună metodă de codare în ipoteza de rată de bit înaltă În cazurile practice cuantizoarele din cadrul SBC sunt alese sau impuse mai mult pe baza unor considerente constructive sau economice, ce nu oferă, în general, cea mai bună metodă de codare În aceste cazuri se impune utilizarea funcţiilor distorsiune-rată operaţionale Anumite rezultate, prezentate în capitolul 2, ne arată că aceste sisteme practice pot aproxima performanţa (5 80) în limita unei constante c1≥ Astfel, în aceste cazuri (5 80) se poate rescrie sub forma: b22− 2cbD⋅ σ⋅= () (5 87) Yi i Autor: ing Tibor AsztalosTeză de doctorat Capitolul V 145 3e⋅ π c - pentru o sursă gaussiană şi un cuatizor neuniform optimal, c= = cu π - în cazul unei 26 surse gaussiane, un cuantizor uniform şi o codare entropică ideală; d) optimalitatea SBC, ce se leagă de maximizarea câştigului de codare (5 85), depinde şi de calitatea băncii de filtre utilizate, prin abilitatea acesteia de a concentra energia semnalului de intrare, integral sau preponderent, pe un număr redus de componente din aceste subbenzi; e) optimalitatea SBC poate fi asigurată prin utilizarea, în mod simultan, a unei bănci de filtre optimală şi a unei proceduri de alocare de bit optimală Rezultă deci, că abordarea optimalităţii unui SBC poate fi realizată printr-o abordare independentă a optimalităţii subsistemelor ce-l compun 5 3 3 SBC uniforme optimale Filtre de compactare optimale Să considerăm sistemul de codare în subbenzi din figura 5 25 Ultima observaţie din paragraful anterior ne permite să abordăm optimalitatea lui printr-o abordare independentă a optimalităţii băncii de filtre şi a cuantizoarelor Qi utilizate În expresia (5 85), a fost specificat un indicator de performan ţă a întregului SBC S-a specificat, de asemenea, faptul că maximizarea acestuia depinde în mod direct de calitatea băncii de filtre utilizate, prin abilitatea acesteia de a concentra energia semnalului de intrare, integral sau preponderent, pe un număr redus de componente din aceste subbenzi În cazul în care sistemul din figura 5 25 este construit folosind o bancă de filtre de tip PR unitară se poate scrie (conform principiului de conservare a energiei): M 221 σ=σ (5 88) ∑ YX iM 1i = În [Kir 98b], [Kir 98c], sunt abordate o serie de soluţii de sisteme SBC ce răspund unor criterii diverse de optimalitate Criteriul de optimalitate cel mai des folosit se bazează pe observaţia faptului că o serie de SBC utilizate în practică se bazează pe principiul codării doar a semnalelor dinMK %>$"#>$>!"#!!"#$$"#%>#>'>&>%>$!$%&'#>$!>F>E>'>%!%'EF a) b) c) Figura 6 1 Histograma relizării semnalului a) gaussian, b) laplacian, c) cu distribuţie uniformă Există un algoritm de calcul, denumit algoritmul lui Blahut, [Gra 98], ce permite estimarea, prin puncte, a funcţiilor distorsiune-rată teoretice Dx(b), pe baza unei realizări disponibile a procesului aleator de intrare În figura 6 2 sunt indicate cele trei curbe ale acestor funcţii Dx(b), evaluate pentru cele trei realizări considerate uniform :45;*/)+06(9 ?)411/)5@+2>A)BA);/)5@+C>523D )A:45;*/)+06(9 ?)411/)5@+2>A)BA);/)5@+C>523D )Auniform !"#&# !"'# &! !"' !"&#%# !"& %! !"%# !"%$# 0/1*231/45-+678$9 0/1*231/45-+I,JK !"$# $! !"$ !"!## ! !"#$$"#%%"#&&"#''"##! ()*)+,-+ /*!"#$$"#%%"#&&"#''"## ()*)+,-+ /* Figura 6 2 Curbele distorsiune-rată estimate ale proceselor de tip gaussian, laplacian şi cu distribuţie uniformă , a) distorsiunea în [dB], b) în valori efective Punctele de evaluare ale curbelor sunt marcate cu semne diferite pentru fiecare caz în parte, astfel s- a notat: - cu simbolul x- funcţia Dxg(b) a cazului gaussian, - cu simbolul o- funcţia Dxl(b) a cazului laplacian, - cu simbolul *- funcţia Dxu(b) a cazului cu distribuţie uniformă Autor: ing Tibor AsztalosTeză de doctorat Capitolul VI 151 În figura 6 2 s-a reprezentat, de asemenea, şi curba Dg(b) teoretică a procesului gaussian (cu linie -4 întreruptă), care însă se confundă (în limita unei erori relative de ordinul a 10) cu cea estimată a acestui proces Se poate observa imediat faptul că funcţia corespunzătoare semnalului gaussian, Dxg(b), are valori efective uşor mai ridicate decât celelalte două, pentru orice valoare a ratei de bit considerată Această ultimă observaţie are un impact major în construcţia sistemelor de compresie optimale şi suboptimale în sensul că ea garantează că un sistem construit pe baza ipotezei unei surse i i d gaussiene va oferi o distorsiune de reconstrucţie mai mică, la aceeaşi rată de bit b, decât orice altă sursă i i d negaussiană Tabelul 6 1 indică valorile estimate ale celor trei funcţii din diferitele puncte (valori ale ratei de bit) de evaluare Tabelul 6 1 Valori evaluate ale funcţiei distorsiune-rată a celor trei procese aleatoare Rata de bit b Dxg(b) [dB] Dxl(b) [dB] Dxu(b) [dB] 0 5000 3 0149 3 6158 3 4219 0 7500 4 5279 5 1785 5 3165 1 0000 6 0419 6 7177 6 9289 1 2500 7 5569 8 2400 8 6068 1 5000 9 0680 9 7658 10 1852 1 7500 10 5779 11 2862 11 7809 2 0000 12 0878 12 8113 13 3723 2 5000 15 1182 15 8805 16 4897 3 0000 18 1812 18 9480 19 6041 3 5000 21 2765 22 0560 22 6757 4 0000 24 3891 25 1832 25 7680 4 5000 27 5028 28 4372 28 9037 5 0000 30 7477 33 1821 32 0077 Un sistem de compresie ce se doreşte a fi de bună calitate trebuie să ofere, pentru o rată de bit b fixată, o valoare apropiată de limita teoretică D a distorsiunii de reconstrucţie, altfel spus el trebuie să opereze în puncte (ale planului distorsiune-rată, D-b) apropiate de curba distorsiune-rată teoretică Locul geometric al acestor puncte în funcţie de variabila independentă rata de bit (b) defineşte curba distorsiune-rată operaţională a sistemului, Dop(b) Evident, şi expresia acesteia depinde de natura procesului de intrare În paragraful §2 1 4 s-a subliniat faptul că orice sistem, ce îşi propune atingerea acestor performanţe limită, trebuie să conţină, în structura sa, componente optimale, dimensionate în conformitate cu statisticile procesului de intrare În acelaşi paragraf au fost analizate performanţele unor cuantizoare scalare şi evaluate limitele în care acestea le aproximează pe cele teoretice S-a indicat faptul că este posibilă construcţia unor cuantizoare optimale, denumite cuantizoare Lloyd- Max, în condiţiile în care sunt cunoscute statisticile de intrare Pentru cazul în care acest lucru nu este posibil, dar se cunoaşte faptul că procesul de intrare este unul staţionar, şi se dispune de o realizare particulară a sa, este posibilă folosirea unor cuantizoare adaptive Acestea învaţă din mers statisticile semnalului de intrare, modificând în acest sens, în mod iterativ, parametrii cuantizorului iniţial Astfel, algoritmul, denumit algoritmul Lloyd-Max, este capabil de găsirea cuantizorului optimal (cel mai potrivit pentru semnalul de intrare dat) din clasa cuantizoarelor scalare cu un număr finit de nivele de cuantizare (L) El verifică şi ajustează valoarea nivelelor de comparaţie precum şi a celor de cuantizare pe baza a două condiţii esenţiale: cea a celui mai apropiat vecin (dată de relaţia (2 33)) şi, respectiv, cea de centroid (dată de relaţia (2 37)) Cunoscând valorile unui ! , (o realizare particulară a unui proces aleator), algoritmul vector de intrare [] N21x xxx= găseşte un estimator al funcţiei de densitate de probabilitate () xp şi, pornind de la cuantizorul X Autor: ing Tibor AsztalosTeză de doctorat Capitolul VI 152 uniform cu L nivele, aplică, alternativ şi în mod secvenţial, cele două condiţii date de relaţiile (2 33) şi (2 37), până ce variaţia procentuală a distorsiunii D oferite, de la o iteraţie la alta, nu va depăşi un anumit prag impus În cazul în care funcţia estimată () verifică condiţia de convexitate dată de xp X relaţia (2 38) convergenţa algoritmului este asigurată, având ca limită parametrii cuantizorului optimal Câteva rezultate ale aplicării acestui algoritm realizărilor de procese aleatoare xg[n], xl[n], şi xu[n], cu histogramele din figura 6 1, se prezintă în tabelul 6 2 Tabelul 6 2 Evoluţia raportului SQNR şi a pragurilor de cuantizare prin aplicarea algoritmului Lloyd-Max Semnalul xg[n]Semnalul xl[n]Semnalul xu[n] SQNR y1 y2 y3 SQNR y1 y2 y3 SQNR y1 y2 y3 7 9518 -1 5000 0 0000 1 5000 7 7329 -1 5000 0 0000 1 5000 7 8455 -1 5000 0 0000 1 5000 8 8552 -1 2661 0 0001 1 2785 8 2113 -1 2610 -0 0009 1 3483 10 5842 -1 1844 -0 0004 1 1823 9 2500 -1 1369 0 0013 1 1533 8 4026 -1 1366 0 0080 1 2602 11 6476 -1 0238 -0 0008 1 0206 9 3877 -1 0624 0 0025 1 0812 8 4735 -1 0623 0 0209 1 2112 11 9598 -0 9446 -0 0004 0 9416 9 4364 -1 0203 0 0042 1 0431 8 5038 -1 0177 0 0343 1 1883 12 0434 -0 9047 -0 0002 0 9016 9 4552 -0 9952 0 0059 1 0208 8 5193 -0 9884 0 0462 1 1781 12 0626 -0 8853 -0 0007 0 8809 9 4622 -0 9790 0 0076 1 0077 8 5286 -0 9672 0 0574 1 1758 12 0673 -0 8761 -0 0012 0 8710 9 4644 -0 9690 0 0091 1 0004 8 5355 -0 9508 0 0676 1 1785 12 0685 -0 8719 -0 0019 0 8658 9 4652 -0 9631 0 0106 0 9972 8 5412 -0 9376 0 0774 1 1839 12 0688 -0 8700 -0 0025 0 8630 9 4656 -0 9596 0 0118 0 9953 8 5463 -0 9260 0 0862 1 1901 12 0689 -0 8692 -0 0029 0 8616 9 4658 -0 9567 0 0127 0 9940 8 5511 -0 9157 0 0947 1 1980 12 0689 -0 8689 -0 0031 0 8608 9 4659 -0 9546 0 0136 0 9933 8 5555 -0 9063 0 1032 1 2066 12 0689 -0 8687 -0 0033 0 8603 9 4659 -0 9533 0 0143 0 9932 8 5593 -0 8982 0 1115 1 2156 12 0689 -0 8687 -0 0036 0 8599 9 4659 -0 9527 0 0147 0 9933 8 5619 -0 8907 0 1189 1 2239 12 0689 -0 8688 -0 0039 0 8596 9 4659 -0 9525 0 0149 0 9934 8 5638 -0 8853 0 1251 1 2309 12 0689 -0 8689 -0 0042 0 8592 9 4659 -0 9523 0 0152 0 9936 8 5654 -0 8804 0 1303 1 2372 12 0690 -0 8691 -0 0046 0 8589 9 4659 -0 9522 0 0153 0 9938 8 5665 -0 8758 0 1352 1 2427 12 0690 -0 8693 -0 0050 0 8584 9 4659 -0 9521 0 0154 0 9939 8 5674 -0 8722 0 1395 1 2478 12 0690 -0 8695 -0 0054 0 8580 9 4659 -0 9519 0 0155 0 9940 8 5682 -0 8692 0 1431 1 2528 12 0690 -0 8696 -0 0057 0 8577 9 4659 -0 9517 0 0156 0 9940 8 5688 -0 8666 0 1466 1 2574 12 0690 -0 8698 -0 0060 0 8576 9 4659 -0 9516 0 0157 0 9940 8 5693 -0 8641 0 1497 1 2611 12 0690 -0 8699 -0 0062 0 8574 Cuantizorul de pornire (starea iniţială, de pornire, pentru aplicarea algoritmului Lloyd-Max) în toate cele trei cazuri a fost cel uniform, cu L=4 nivele, având intervalul de cuantizare finit, 22 [] ⋅σ⋅−=− intervalul [], şi nivele de cuantizare, notate cu yi, cu valori ce rezultă din prima xx3,3A,Aσ linie a tabelului Cifrele din tabelul de mai sus indică faptul deja enunţat conform căruia algoritmul converge către o valoare limită maximă a raportului semnal/zgomot de cuantizare Se observă, de dBb02,6⋅ , se atinge pentru b=2 doar asemenea, faptul că limita teoretică, SQNR de aproximativ [] de către cuantizuorul dimensionat după caracteristicile procesului cu distribuţie normală, pentru care tipul de cuantizor uniform reprezintă chiar cel optimal Evoluţia şi în acest caz a valorilor din tabel se datorează faptului că domeniul de cuantizare îl depăşeşte pe cel al valorilor efective ale procesului În concluzie, se poate constata faptul că optimalitatea unui sistem de compresie este strâns legată de natura semnalului de intrare Astfel, poate fi vorba despre o eventuală optimalitate doar în cazul unor semnale staţionare cunoscute Sursele reale sunt însă, în general, surse de informaţie nestaţionare sau staţionare cu statistici insuficient cunoscute Deoarece calitatea de nestaţionar este de fapt o non-calitate (fiind imposibilă o caracterizare generală a tuturor nestaţionarităţilor posibile), în acest caz nu se poate vorbi despre construirea unui sistem optimal Performanţe optime (asigurarea compresiei la o rată de bit cât mai apropiată de valoarea b(D)) se pot obţine în acest caz cu sisteme de compresie care folosesc tehnici adaptive de compresie Aceste sisteme de compresie adaptive învaţă în mod continuu parametrii structurali ai procesului de intrare şi modifică parametrii de codare în sensul adaptării la cerinţele intrării Astfel, ele vor oferi performanţe ce se apropie din ce în ce mai mult de cele optimale Autor: ing Tibor AsztalosTeză de doctorat Capitolul VI 153 6 2 Sisteme adaptive de compresie prin descompuneri în baze de funcţii Wavelet În acest paragraf vor fi abordate câteva soluţii de sisteme adaptive de compresie de semnal cu pierdere, ce recurg la schimbarea spaţiului de reprezentare al semnalului de intrare, presupus a fi nestaţionar, în vederea obţinerii unor reprezentări eficiente, ce permit o mai uşoară adaptare a structurii sistemului la caracteristicile curente ale semnalului prelucrat şi obţinerea, prin aceasta, o îmbunătăţire a performanţelor sistemului Caracterul adaptiv al acestor sisteme se asigură prin controlul direct sau indirect, de către un anumit număr de parametri ai semnalului prelucrat, al unor parametri constructivi ai sistemului Sistemele de compresie propuse operează pe blocuri succesive de eşantioane ale intrării şi folosesc descompuneri în baze de funcţii timp-frecvenţă ale acestora, în vederea obţinerii reprezentărilor secundare de semnal Această transformare trebuie să fie una ce nu introduce redundan ţă suplimentară, (fiind preferate deci transformările ortogonale şi/sau biortogonale), şi care poate oferi o imagine mai compactă a semnalului de intrare Cerinţa este asigurată de către transformările care realizează o decorelare a eşantioanelor intrării concentrând astfel o cantitate de informaţie mai mare pe un număr mai redus de coeficienţi din domeniul transformat Din acest punct de vedere, expunerea din capitolul patru ne indică faptul că transformarea Karhunen-Löeve este optimală în cazul proceselor de intrare staţionare, gaussiene însă nu există algoritmi rapizi de calcul, de evaluare a sa, şi nici procedura de calcul matematic implicată nu este întotdeauna convergentă Din acest motiv, în practică, se preferă soluţii suboptimale cum sunt DCT sau transformarea Wavelet care, la limită, sunt convergente către această transformare Karhunen-Löeve 6 2 1 Un sistem eficient de compresie Wavelet adaptivă Schema de principiu a unui sistem de compresie ce utilizează transformarea Wavelet ortogonală se prezintă în figura 6 3 y[n]]n[x][ˆny x(t)u[n] Eşant /Cuantiz / λ cuantiz FWTcodare Figura 6 3 Sistem de compresie Wavelet Tematica utilizării transformării Wavelet în domeniul compresiei de semnale, utilitatea algoritmului FWT în calculul coeficienţilor acestor transformări, proprietăţile descompunerilor rezultate, au fost abordate în detaliu în primele capitole ale acestei lucrări Structura de sistem de compresie din figura 6 3 a fost propusă de autor în lucrările [Asz 94], [Isa 94] ℜ∈ Semnalul de intrare x(t) se presupune a fi unul de energie finită (() ( ) 2Ltx) Primul bloc din cadrul sistemului realizează o eşantionare urmată de o cuantizare uniformă fină (pe 16 biţi) a semnalului Se obţine secvenţa numerică cu valori discrete x[n] Evident reconstrucţia exactă a lui x(t) din secvenţa x[n] nu mai este posibilă nici măcar în cazul în care x(t) este unul de bandă limitată Este posibilă însă obţinerea, în acest caz, a unui semnal reconstruit, () txˆ, în limita unei distorsiuni maxime dată de cuantizorul uniform Expunerea din cel de al doilea capitol ne asigură de faptul că raportul semnal pe zgomot de cuantizare (SQNR) obţinut în urma cuantizării fine va fi în jurul valorii de 90÷96 dB Următorul bloc, cel notat cu FWT, este cel al transformării Wavelet Scopul urmărit este obţinerea unei reprezentări alternative mai compacte a secvenţei x[n] Aceasta este secvenţa numerică y[n], semnalul obţinut în urma aplicării algoritmului FWT secvenţei x[n] Parametrii procesului de transformare sunt: Autor: ing Tibor AsztalosTeză de doctorat Capitolul VI 154 - lungimea N a blocului de eşantioane prelucrat, - tipul funcţiei Wavelet utilizată, - nivelul maxim, J, al descompunerii n = Sistemul propus lucrează cu o lungimea N a blocurilor de eşantioane fixă (5122N=) El permite specificarea (opţională) sau selectarea adaptivă a uneia dintre primele 9 funcţii Wavelet ale lui Daubechies (notate DAU-2…DAU-10) Valoarea nivelul maxim J, de iterare a descompunerii, se fixează automat la cea maximă posibilă, determinată de lungimea N a blocurilor de eşantioane şi de lungimea filtrelor Wavelet utilizate (obţinute în urma procesului de selecţie a funcţiei Wavelet) Transformarea efectivă se calculează folosind algoritmul FWT, conform procedurii indicate în figura 3 1 (cu [] [] nxns= 0) Acesta foloseşte valori precalculate ale coeficienţilor filtrelor Wavelet, motiv pentru care această transformare este una rapidă, necesitând un număr total de operaţii proporţional cu N (fiind astfel chiar mai rapidă decât transformarea FFT) Transformarea fiind una ortogonală şi unitară, secvenţa y[n] (a coeficienţilor Wavelet) permite reconstrucţia exactă a secvenţei x[n] Neglijarea efectivă a unor coeficienţi y[n] are loc în următoarea etapă care presupune stabilirea unui prag de comparaţie λ şi anularea coeficienţilor Wavelet cu magnitudine mai mică, ca şi valoare, decât acest prag În literatura de specialitate acest proces poartă denumirea de “hard-thresholding”, [Don 92] Opţional, se poate cere ca ea să fie completată cu o operaţie simultană de scădere a valorii pragului din valoarea magnitudinii coeficienţilor rămaşi nenuli, proces cunoscut sub denumire de “soft-thresholding” Rezultatul, semnalul [] nyˆ, este o secvenţă cu un număr semnificativ de valori nule ceea ce permite realizarea unei compresii efective prin reţinerea şi transmiterea doar a valorilor nenule din secvenţă Criteriul de evaluare a calităţii sistemului este cel de eroare medie pătratică dată de media erorii pătratice de reconstrucţie, definită conform (1 12) Sistemul este unul adaptiv şi în sensul că el stabileşte în mod adaptiv pragul de comparaţie λ, astfel încât SQNR de reconstrucţie să nu scadă sub o anumită limită Se poate specifica, de exemplu, limita maximă admisibilă a distorsiunii de reconstrucţie D în termeni procentuali ai energiei secvenţei x[n], Ex Astfel, de exemplu, un raport 100D/E= x corespunde la un SQNR minim de 20 dB Având în vedere faptul că transformările Wavelet propuse sunt unitare se poate scrie: 22 == [][] ∑∑ xnynxE(6 1) nn De asemenea, distorsiunea de reconstrucţie este: 22 [] [][] [] −=−= nyˆnynxˆnxD(6 2) ∑∑ nn unde [] este semnalul reconstruit, iar: nxˆ  λ≥ [] [] nyny [] = nyˆ(6 3)  λ J,j∈ Z, o Z, ce formează, pentru orice J∈ ℜ descompunere ortonormală a spaţiului (), verificarea relaţiei (6 7) ne permite eliminarea tuturor 2L coeficienţilor de proiecţie pe spaţiile {Wj}j>J,j∈, cu garantarea unei limite maxime a erorii de Z aproximare Acest lucru permite o reducere semnificativă a numărului de coeficienţi ce trebuiesc păstraţi în vederea unei reconstrucţii “rezonabile” Propuneri concrete de sisteme adaptive de compresie Wavelet, ale autorului, ce ţine cont de observaţiile anterioare au fost prezentate în lucrările [Asz 99c] şi [Asz 99d] Schema de principiu a sistemului de compresie se prezintă în figura 6 7 y[n]]n[x][ˆny][ˆny x(t)u[n][] Eşant /Cuantiz /nxˆ IFWT λ cuantiz FWTcodare Decodare Figura 6 7 Sistem adaptiv de compresie Wavelet Schema din figura 6 7 pune în evidenţă o structură similară cu cea din figura 6 3 Metoda de lucru, funcţiile diferitelor blocuri precum şi procedurile de prelucrare sunt însă mai mult sau mai puţin diferite Aceste diferenţe se referă la includerea unei proceduri de estimare a regularităţii semnalului prelucrat şi alegerea sistemului Wavelet în funcţie de rezultatul obţinut Procedura de estimare a regularităţii semnalului oferă două rezultate importante: - realizează o estimare a gradului polinomului cel mai apropiat de semnalul x(t), - realizează o segmentare a semnalului de prelucrat în segmente de o anumită regularitate Rezultatele au la bază observaţia faptului că orice semnal x(t), de energie finită, poate fi aproximat prin polinoame () tP, de un anumit ordin Pi, pe intervale disjuncte Ii Această iP posibilitate are la bază expresia dezvoltării în serie Taylor a semnalului x(t) în jurul unui anumit punct ti , de forma: P 1ki () k ()()( ) () −= (6 8) tRtttxtx+ ∑ 1Pii+ k!i 0k= Primul termen al dezvoltării (6 8) este un polinom de grad Pi , ce reprezintă o bună aproximare a semnalului x(t) într-un interval Ii din jurul punctului ti considerat Astfel, se poate scrie: () ∈  ,tP 0PIt 0  () ∈ ,tP 1PIt 1   () ≅  tx(6 9)  ∈ () ,tP iPIt  i  "  = unde Ii reprezintă intervale disjuncte ale axei reale (ℜ #iI) i Autor: ing Tibor AsztalosTeză de doctorat Capitolul VI 159 Această posibilitate de reprezentare a semnalului analizat oferă deci posibilitatea segmentării semnalului, pe fiecare dintre aceste segmente semnalul fiind cu o formă de variaţie polinomială (de un anumit grad) Însă, conform observaţiilor de mai sus, orice polinom de un anumit grad Pi aparţine spaţiului Vi al unei analize multirezoluţie generată de o funcţie Wavelet ψ (t), cu un număr de cel puţin Pi+1 momente nule În cele ce urmează vom demonstra următoarea propoziţie originală: Propoziţia 6 1 Un număr maxim de valori nule ale coeficienţilor Wavelet ai unor segmente Ii de semnal cu variaţie polinomială de grad maxim Pi, se obţine dacă transformarea Wavelet este calculată cu rezoluţia maximă, şi dacă sunt folosite funcţii Wavelet mamă, ψ (t), cu un număr de Pi+1 momente nule Demonstraţie: În cadrul sistemului de compresie din figura 6 7 transformarea Wavelet este calculată aplicând algoritmul FWT, prezentat în §3 1 1 5 Aceasta, pornind de la coeficienţii dezvoltării semnalului x(t) în baza spaţiului V0, (s0[n]=x[n]), evaluează coeficienţii de proiecţie ai secvenţei pe orice subspaţiu V-j, j=1,2,…,J, ce formează secvenţele notate sj[n], precum şi cei de proiecţie pe subspaţiile W-j, j=1,2,…,J, numiţi coeficienţi detaliu, secvenţele dj[n] Evaluarea are la bază relaţiile (3 76) şi (3 77) Relaţiile pun în eviden ţă o operaţie de filtrare, cu filtre Wavelet de lungime finită, urmată de o operaţie de decimare cu factorul doi Se cunoaşte faptul că semnalul prelucrat are o variaţie polinomială de grad Pi pe intervalul Ii, ce reprezintă şi suportul finit al secvenţei prelucrate x[n] Ne interesează să alegem o funcţie Wavelet mamă ψ astfel încât să obţinem un număr minim de (t), coeficienţi Wavelet Observaţiile anterioare ne sugerează faptul că aceasta ar trebui să fie cu un număr de cel puţin Pi+1 momente nule Iterarea descompunerii Wavelet pe un număr maxim posibil de nivele de rezoluţie, J=Jmax, ne asigură de faptul că vom obţine un număr minim de coeficienţi de proiecţie sJ[n] Acest lucru este asigurat de faptul că la fiecare iteraţie are loc şi o operaţie de decimare, iar secvenţa de intrare (cea prelucrată) este de lungime finită (cu suportul în intervalul Ii) obţinându-se astfel secvenţe de coeficienţi din ce în ce mai scurte Pe intervalul Ii semnalul de intrare poate fi modelat prin: iP k = ∑ )t(x(6 10) kta = 0k Dacă se calculează coeficienţii detaliu (secvenţele dj[n]) ai descompunerii semnalului x(t), se obţine: j iP jk 2 () [] −ψ= ∑ kjnt22,tand(6 11) 0k = α= Notând cu [], intervalul de definiţie a semnalului x(t), produsul scalar din expresia (6 11) iii,Iβ poate fi scris: Autor: ing Tibor AsztalosTeză de doctorat Capitolul VI 160 jj β i − jkjk 22 ()() =−ψ=−ψ dtnt2t2nt22,t ∫ α i j(6 12) − jj  −β−β kn2n22ii  − lkklk2 ( ) () () ndvvvCdvvnv ⋅ψ⋅=ψ+= ∑ ∫∫  kkj  = 0l2jj −α−α n2n2 ii  Având în vedere faptul că, prin definiţie, un număr de r de momente nule ale funcţiei Wavelet mamă ψînseamnă: (t) ∞ k =ψ (6 13) 0dt)t(t= ; 1-r0,k ∫ ∞− în evaluarea (6 12), şi deci în cea a expresiei (6 11), vom putea distinge trei cazuri, în funcţie de variabila n: Cazul I j ψβα= - valori nm pentru care suportul funcţiei ()este inclus în intervalul [] ,I mnt2−iii În acest caz o alegere de 1Pr+ a numărului de momente nule va asigura anularea coeficienţilor i≥ dj[nm] Evident, condiţia de suport implică o valoare Jj≥Jmin asigură verificarea min, unde J min ψ condiţiei supp() iIt2⊂ Deci, în acest caz obţinem dj[nm]=0 Cazul II j ψβα= - valori nm pentru care suportul funcţiei () nu este inclus în intervalul [] mnt2−iii,I dar intersecţia lor nu este nulă În acest caz integralele din (6 12) vor fi nenule rezultând deci: dj[nm]≠ 0 Cazul III j ψβα= - valori nm pentru care suportul funcţiei () nu este inclus în intervalul[] mnt2−iii,I iar intersecţia lor este nulă Evident aceşti coeficienţi vor fi nuli: dj[nm]=0 Scopul urmărit este minimizarea numărului coeficienţilor Wavelet cu valori nenule Alegerea J=Jmax (unde Jmax este dependent de lungimea secvenţei de coeficienţi x[n]) asigură minimizarea numărului coeficienţilor de proiecţie, sJ[n] Din analiza de mai sus rezultă faptul că, alegând o valoare 1Pr+, pentru JJJ> vom i %!>%! >'!>'! >E!>E! !$!!%!!&!!'!!#!!E!!G!!F!!!$!!%!!&!!'!!#!!E!!G!!F!! a) b) Figura 6 8 a) semnalul test de prelucrat; b) semnalul test reconstruit din cel adaptiv comprimat Rezultatul etapei de segmentare adaptivă este prezentat sintetic în tabelul 6 3 Tabelul 6 3 Diferitele segmente de regularitate ale semnalului test din figura 6 8 a Numărul Gradul Lungimea de ordine polinomului segmentului al asociat [număr de segmentuluieşantioane] 1 0 128 2 5 128 3 6 128 4 7 256 5 9 64 Constanta α din relaţia (6 15) ia valoarea 0 005 (0 5%), ceea ce reprezintă o distorsiune maxim admisibilă de 1/200 din energia totală a segmentului de eşantioane Factorul de compresie obţinut, în urma cuantizării pe 8 biţi şi memorarea în format [poziţie, valoare] a valorilor nenule, este de 7 65 Autor: ing Tibor Asztalos 163 Capitolul VII Compresie transparentă de semnal audio 7 1 Metode standardizate de codare a semnalului audio Cercetările din domeniul compresiei de voce şi de semnal audio au dus, de-a lungul timpului, la apariţia unei serii de standarde naţionale şi internaţionale Astfel, în domeniul compresiei semnalului vocal pot fi menţionate metodele de compresie: CELP (Code-Excited Linear Prediction - inclus în standarde naţionale sau internaţionale cum sunt US FS 1016, ITU-T G 728, ITU-T G 729), APC (Adaptive Predictive Coding - Inmarsat-B), MP-LPC (MultiPulse Linear Predictive Coding - utilizat în sistemul BTI Skyphone), RPE-LPC (Regular Pulse Excitation Linear Predictive Coding - inclus în standardul de telefonie celulară GSM), ADPCM (Adaptive Differential Pulse Code Modulation - ITU-T G721, ITU-T G722), LPC (Linear Predictive Coding - standardul LPC-10), MBE (MultiBand Excitation coding - utilizat în sistemul INMARSAT-M), VSELP (Vector Sum Excited Linear Predictive coding - IS54) Problema compresiei semnalului de voce este de fapt o preocupare mai veche a unui număr mare de cercetători de pretutindeni din lume Exista o serie de lucrări de referinţă, foarte multe mai recente, semnate de M R Shroeder, A Gersho, J P Campbell, P Barnwell, R J McAulay, T F Quatieri, etc care abordează cu succes anumite aspecte ale acestui domeniu al compresiei de voce De-a lungul timpului s-au conturat clar două direcţii în cadrul acestui domeniu, şi-anume cea a metodelor de codare a formei de undă (mai puţin eficiente dar cu o fidelitate mai bună), şi cea a codărilor prin sinteză de semnal, metode ce presupun o parametrizare a semnalului vocal original şi reţinerea doar a valorilor acestor parametri, urmată de o sinteză de semnal pe baza acestor valori (sunt metode foarte eficiente dar oferă fidelitate de reproducere mai scăzută) Spre deosebire de metodele de codare de semnal vocal, anterior amintite, noţiunea de codare audio se asociază, încă de la început, cu metodele de compresie cu o fidelitate de reproducere remarcabilă, deci de calitate, cu aplicaţii în transmisiuni audio numerice de înalte fidelitate, calitate Hi-Fi, (de exemplu, sistemele DAB - Digital Audio Broadcast), sau în televiziunea numerică de înaltă definiţie (de exemplu, sistemele Grand Alliace HDTV - High Definition TeleVision, sau sistemele europene DVB - Digital Video Broadcast), precum şi în alte sisteme multimedia Caracteristica comună a acestor semnale este banda de frecven ţă ocupată mai mare (de până la 24 kHz) decât cea a semnalelor de voce vizate de metodele anterior amintite O deosebire esenţială dintre cele două categorii de metode constă în faptul că în timp ce metodele de codare a vocii sunt, cu precădere, metode predictive, cele de codare audio de bandă largă sunt, în general, codări prin transformări ortogonale sau prin filtrări în subbenzi Şi în acest domeniu au fost elaborate o serie de metode care, ulterior, au fost standarde Astfel, pot fi amintite metodele: NICAM (Nearly Instantaneous Companding Audio Multiplex, standardizat ITU- R Rec 660) al firmei BBC, ASPEC (Adaptive Spectral Perceptual Entropy Coding of high quality music signals) elaborată de firma AT&T în colaborare cu institutul Fraunhofer şi Universitatea din Erlangen, Germania, metoda MUSICAM (Masking pattern adapted Universal Subband Integrated Coding And Multiplexing), MASCAM (Masking pattern Adapted Subband Coding And Multiplexing) şi nu ultimul rând standardele ISO/MPEG-audio iniţiate de firmele Philips (Olanda), IRT (Germania) precum şi de organizaţia CCETT (Centre Commun d'Etudes des Telediffusion et Telecommunications, Franţa) Metoda MPEG-1 audio prevede trei nivele de codare a semnalului audio, cu o complexitate de implementare din ce în ce mai ridicată dar şi cu o fidelitate de reproducere din ce în ce mai bună în aceleaşi condiţii de lucru Nivelele 1 şi 2 de codare sunt similare cu cele din metoda MUSICAM, primul nivel fiind însă mai simplu Nivelul 3 de codare oferă calitatea cea mai bună dar este şi cu o complexitate de implementare ridicată Acest nivel 164 combină codarea prin transformare ortogonală a metodei ASPEC cu filtrarea subbandă utilizată în sistemul MUSICAM MPEG-1 permite codarea transparentă a semnalului audio stereofonic (în limita unei rate de bit medie impusă) MPEG-2 a apărut ca şi o continuare a seriilor de standarde MPEG-1 de codare a semnalelor video-audio, incluzând facilităţi suplimentare cum este cea de a lucra şi cu rate de bit mai scăzute Partea audio MPEG-2 aduce şi o componentă nouă, denumită MPEG-2 AAC (MPEG-2 Advanced Audio Coder, standardizat ISO/MPEG 13818-7), ce este o metodă de codare similară codărilor MPEG-1, dar care permite codare audio multicanal (5 1 canale, 5 canale audio plus un canal de rezervă de bandă îngustă de 200 Hz) cu opţiuni noi cum ar fi utilizarea unor tehnici predictive în vederea cuantizării şi codării eşantioanelor subbandă Se remarcă, de asemenea, existenţa în acest domeniu a unor serii de alte standarde, de obicei standarde de firmă, cum ar fi metoda PASC (Precision Adaptive Subband Coding) incluse în sistemele DCC (Digital Compact Casette) ale firmei Philips sau metoda ATRAC (Adaptive TRansform Acoustic Coding for minidisc) incluse în sistemele Minidisc ale firmei Sony De fapt, metoda PASC este foarte asemănătoare cu Nivelul 2 de codare audio ISO MPEG-1 O serie de alte firme, în special japoneze (NEC, Matsushita, Sony etc ), şi-au propus realizarea unor circuite integrate ce implementează codarea şi respectiv decodarea MPEG audio în timp real Publicaţiile de referinţă în acest domeniu poartă semnătura unor cercetători renumiţi cum sunt Gerard Lokhoff (metoda PASC), K Brandenburg (ASPEC, ISO MPEG-audio), [Bra 90], [Bra 91a], D Seitzer, M Iwadara, Y F Dehery (metoda MUSICAM), N Moreau, K Tsutsui, H Suzuki (metoda ATRAC), G Theile, G Stoll (metoda MASCAM), J D Johnstone etc Aceste metode de codare de semnal audio de bandă largă au la bază, aproape în exclusivitate, codarea caracteristicilor frecvenţiale ale semnalului analizat, un rol important jucând în toate aceste cazuri diversele variante ale transformării DCT Compresia efectivă are la bază, în majoritatea cazurilor, o reducere a unor componente de semnal, ce sunt imperceptibile de către sistemul auditiv uman În acest mod se poate obţine o compresie a semnalului audio ce oferă erori de reconstrucţie imperceptibile la decodare Componentele nesemnificative, deci cele imperceptibile, sunt identificate de către fiecare metodă folosind un model psiho-acustic (ce modelează funcţionarea sistemului auditiv uman) Această analiză vizează, în general, atât caracteristicilor frecvenţiale (componente spectrale), cât cele temporale ale semnalului audio Această din urmă observaţie deschide direcţii noi de cercetare în domeniul compresiei audio, având în vedere faptul că identificarea simultană, atât frecvenţială cât şi temporală, a componentelor neglijabile (care dau erori de reconstrucţie imperceptibile), poate oferi rezultate mai bune, algoritmi mai eficienţi decât cele mai sus amintite Printre aceste noi direcţii una de importanţă majoră pare să fie cea de compresie audio de bandă largă utilizând descompuneri de semnal în baze de funcţii timp-frecvenţă, (în special în cele de funcţii Wavelet sau pachete de funcţii Wavelet) Principalul argument în favoarea acestor funcţii constă în faptul că, spre deosebire de funcţiile de descompunere implicate de transformarea DCT, aceste funcţii se bucură de proprietăţi remarcabile de localizare simultană atât în domeniul timp cât şi în cel de frecvenţă În capitolul trei au fost caracterizate o serie de asemenea baze incluzând baze Wavelet ortogonale, biortogonale, baze de pachete de funcţii Wavelet, baze de funcţii trigonometrice locale, de pachete de funcţii trigonometrice locale A fost subliniat faptul că transformarea Wavelet discretă, DWT, permite o implementare chiar mai eficientă decât cea a DCT Acest fapt îl recomandă ca un posibil puternic contracandidat al DCT într-o serie de domenii de aplicaţie Această recunoaştere este foarte recentă, motiv din care subiectul este unul de mare actualitate Importanţa utilizării funcţiilor Wavelet în aplicaţiile de compresie audio s-a conturat de abia în urma apariţiei unor lucrări de referinţă în domeniu semnate de Y Meyer, [Mey 90], R R Coifman, [Coi 90], [Coi 92a,b], M V Wickerhauser, [Wic 94], R A Gopinath, [Gop 92a,b,c,d], G Evangelista, [Eva 93], S G Mallat, 165 [Mal 89b], [Mal 93], A H Tewfik, [Ali 95], C Taswell, [Tas 94], [Tas 95a,b], D Sinha, [Sin 93], M Vetterli, [Vet 89], [Vet 92], J Kovacevic, [Vet 95], V K Goyal, [Goy 98], R Arean, [Are 00], M Ali, [Ali 96], etc Noile procedee, prezentate în aceste lucrări, permit efectuarea unei analize mai eficiente a semnalului audio, o mai bună adaptare la caracteristicile sistemului auditiv uman, ce permit astfel obţinerea de performanţe similare cu cele ale metodelor clasice dar cu o complexitate mai redusă sau, performanţe mai bune la o aceeaşi complexitate Este şi motivul pentru care transformarea Wavelet urmează să fie inclusă în standardul de compresie MPEG 2000, ce doreşte a fi un succesor al standardelor actuale MPEG-1,2,4,7 audio şi video 7 2 Codare transparentă de semnal audio 7 2 1 Modelarea proprietăţilor psiho-acustice ale sistemului auditiv uman Auzul uman, mecanismul de percepţie a sunetelor de către sistemul auditiv uman este un proces complex şi foarte greu de modelat cu o acurateţe bună Însă, de această acurateţe a modelului stabilit depinde abilitatea unui anumit algoritm de codare a semnalelor de voce şi audio de a oferi o codare transparentă Elementele componente ale acestui proces ţin atât de anatomia urechii umane, de mecanismul de transmisie a impulsurilor nervoase precum şi de abilităţi interpretative la nivelul creierului Un model bun al acestui proces trebuie să abordeze cel puţin fenomenele care ţin de principalele componente ale acestui proces Acestea sunt: - transformarea semnalului acustic în semnal electric; - analiză spectrală cu un set de filtre trece-bandă, cu caracteristici asemănătoare proprietăţilor de transmisie ale rezonatorilor Helmholz din urechea internă; - transmisia impulsurilor cuantificate la nivel auditiv; - repartiţia impulsurilor nervoase (fibrele nervoase se pot grupa şi lega în vederea transmiterii unui impuls nervos “insuportabil” de transmis de către oricare dintre ele); - integrarea neurologică a datelor auditive (aproximativ la fiecare 1/16 secunde se face o evaluare, la nivelul creierului, a ceea ce s-a transmis de-a lungul nervului auditiv în acel interval sub forma unui spectru curent de putere); - autocorelarea fenomenului (datele auditive nu se rezumă doar la un flux de senzaţii succesive, există un mecanism de autocorelare a “recepţiei” curente cu cele precedente, ce permite o apreciere a coerenţei desf ăşurării sonore înregistrată în memoria de timp scurt); - recunoaşterea - o ultimă integrare ce duce la recunoaşterea unui eveniment sonor prin corelarea informaţiei transmise cu conţinutul memoriei permanente Considerentele de mai sus sugerează complexitatea amintită a procesului de percepţie, multitudinea nivelelor la care acesta se realizează precum şi cerinţe aproape imposibil de satisfăcut în construcţia efectivă a unui model bun al acestuia De fapt, chiar şi cele mai răspândite modele existente sunt axate doar pe câteva dintre considerentele mai sus enumerate Astfel, aceste modele utilizate în mod curent prevăd o structură de bancă de filtre neuniformă, formată din 25 de filtre kHz trece-bandă (cu 25 de canale), ce acoperă domeniul de frecvenţe 240 ÷ Într-un sistem de codare de semnal vocal sau audio, acest model, cunoscut sub denumirea de model psiho-acustic, este folosit pentru eliminarea părţii nerelevante din cantitatea de informaţie totală a semnalului de codat Mai precis, se urmăreşte identificarea şi eliminarea acelor componente de semnal care duc la distorsiuni de reconstrucţie imperceptibile la decodare Din acest motiv, cu 166 toate că aceste metode sunt metode de codare cu pierdere, ele sunt denumite metode de codare transparente 7 2 2 Codare perceptivă de semnal audio Procesul de modelare a sistemului auditiv uman implică o serie de concepte noi cum sunt: prag de audibilitate, benzi critice, mascare audio, prag de mascare, raport semnal pe nivel de mascare, SMR (Signal to Mask Ratio), etc , [Mor 95] Pragul de audibilitate reprezintă puterea minimă a unui semnal acustic pentru care acest semnal devine audibil (este detectat de auzul uman) Această definiţie este însă una imprecisă şi incompletă Modelele psiho-acustice curente ţin cont de faptul că urechea umană nu este la fel de sensibilă pentru toate frecvenţele din plaja domeniului de frecvenţe audio Astfel, două componente frecvenţiale pure de aceeaşi putere dar de frecvenţe diferite sunt percepute ca având nivele diferite Pragul absolut de audibilitate se defineşte ca o ξT, de variabila frecvenţă ξ, şi indică puterea minimă a unei componente frecvenţiale funcţie () a pure pentru care aceasta devine audibilă În mod similar pot fi definite curbele de audibilitate de nivel constant, () ξT, prin considerarea nivelelor de putere ale unor componente frecvenţiale pure λ pentru care percepţia este uniformă, de un anumit nivel constant, λ Nu există o expresie analitică exactă a aacestor curbe, se cunosc însă diverse expresii aproximative Astfel, pragul absolut de audibilitate poate fi modelat prin expresia neliniară, [Ber 98]: 2 ξ − 46 08 0⋅ − ξ − 31000ξ +⋅−⋅=ξ () [] (7 1) a10e5 664 3dBT⋅ 10001000 este exprimată în Hz, iar rezultatul () în decibeli unde variabila frecvenţială ξ ξT a În figura 7 1 se prezintă această curbă a pragului absolut de audibilitate Importanţa acestei curbe rezidă în faptul că orice componentă spectrală, din spectrul unui semnal audio, ce are un nivel de putere mai mic decât valoarea pragului de audibilitate în acel punct frecvenţial, poate fi neglijată într-un proces de codare a semnalului, distorsiunile de reconstrucţie rămânând imperceptibile Acest fapt pare să explice de ce cuantizarea uniformă pe 16 biţi a semnalului audio poate oferi o reproducere de calitate, de înaltă fidelitate (în acest caz raportul semnal pe zgomot al semnalului reconstruit este în jurul valorii de 96 dB) 200 150 100 50 0 101102103104105 Figura 7 1 Curba pragului absolut de audibilitate (în dB) Modelul psiho-acustic bazat pe o structură de bancă de filtre neuniformă doreşte să pună în evidenţă comportamentul urechii interioare în procesul de recepţie a undelor acustice Benzile de trecere ale filtrelor trece-bandă, denumite benzi critice, nu sunt egale Acestea pot fi stabilite pe 167 baza unor considerente perceptive (deci subiective) Astfel, considerând un semnal acustic format din două componente de semnal pur sinusoidale (componente tonale), cu puteri stabilite (cunoscute) şi de frecvenţe diferite, s-a constata faptul că nivelul percepţiei (puterea sesizată) depinde foarte mult de distanţa frecvenţială dintre aceste componente S-a observat faptul că, în cazul în care cele două componente sunt cu frecvenţe apropiate, nivelul percepţiei este mai mic decât în cazul în care această diferenţă de frecvenţă este mai mare, în aceleaşi codiţii de putere ale celor două componente Noţiunea de bandă critică este folosită pentru denumirea unei benzi de frecvenţe definită de diferenţa minimă de frecvenţă dintre două componente tonale la care se observă această creştere a nivelului de percepţie În tabelul 7 1 sunt trecute principalele frecvenţe de identificare a celor 25 de benzi critice (frecvenţele de tăiere - inferioară şi superioară, precum şi cea centrală a benzii), stabilite experimental pentru acest model al sistemului auditiv uman Tabelul 7 1 Benzile critice ale modelului sistemului auditiv uman Numărul Frecvenţa de tăiere Frecvenţa centrală Frecvenţa de tăiere benzii inferioară (ξ ),[Hz] superioară (ξ),[Hz] min), [Hz]a benzii (0ξmax 1 0 50 100 2 100 150 200 3 200 250 300 4 300 350 400 5 400 450 510 6 510 570 630 7 630 700 770 8 770 840 920 9 920 1000 1080 10 1080 1170 1270 11 1270 1370 1480 12 1480 1600 1720 13 1720 1850 2000 14 2000 2150 2320 15 2320 2500 2700 16 2700 2900 3150 17 3150 3400 3700 18 3700 4000 4400 19 4400 4800 5300 20 5300 5800 6400 21 6400 7000 7700 22 7700 8500 9500 23 9500 10500 12000 24 12000 13500 15500 25 15500 19500 24000 Se poate observa faptul că definirea acestor benzi critice este dată în termenii unor măsuri subiective, motiv din care limitele de frecvenţă indicate în tabelul de mai sus reprezentă doar valori recomandate, de care se poate ţine cont în dimensionarea unei bănci de filtre ce doreşte să modeleze sistemul auditiv uman O definiţie mai generală a unei benzi critice, ţinând cont de fenomenul mai sus amintit, poate fi dată în felul următor: o bandă critică reprezintă un domeniu de frecvenţe pentru care răspunsurile subiective sunt relativ uniforme, în timp ce răspunsul la frecvenţe din benzi critice diferite tinde să fie radical diferit 168 Mascarea audio este un fenomen ce se manifestă atât în domeniul timp cât şi în cel de frecven ţă, şi constă în faptul că un semnal sonor slab (de nivel mai mic) este practic imperceptibil de către urechea umană în prezenţa unui semnal sonor mult mai puternic ce apare în mod simultan sau aproape simultan cu cel dintâi Fenomenul de mascare temporală constă în mascarea, de către un semnal sonor mai puternic, cu o anumită durată de existenţă, a semnalelor mai slabe imediat înaintea apariţiei, în timpul existenţei şi pe o scurtă perioadă de timp după terminarea semnalului sonor puternic Fenomenul de mascare frecvenţială constă în faptul că o componentă frecvenţială puternică (de exemplu o componentă tonală) afectează puternic percepţia celorlalte componente frecvenţiale, indiferent de benzile critice în care se încadrează acestea Deci, el este un fenomen ce apare în condiţiile de coexistenţă simultană a mai multor componente spectrale in semnalul sonor Un exemplu de mascare frecvenţială de către o componentă puternică, T, pe o frecvenţă ξ 11, a altor două componente spectrale mai slabe, cu frecvenţele ξ , se prezintă în figura 7 2 2 şi, respectiv, 3ξ () ξS x T1 Curbă de mascare T 2 T3 ξ ξ ξ ξ 123 Figura 7 2 Curba de mascare a unei componente frecvenţiale T1 Gradul de mascare de către componenta frecvenţială T a altor componente, este dependentă atât de 1 nivelul acesteia cât şi de frecvenţa componentelor mascate Componenta frecvenţială T poartă 1 denumirea de componentă sau semnal de mascare Nivelul minim de semnal a unei alte componente, cu o anumită frecvenţă, pentru care aceasta devine audibilă, în prezenţa componentei de mascare T, defineşte pragul de mascare a componentei T pe acea frecven ţă Valorile pragului 11 de mascare al unei componente de mascare, evaluate în puncte frecvenţiale diferite, definesc curba de mascare a acelei componente În figura 7 2 prin linie continuă a fost reprezentată curba de mascare a componentei T Orice componentă cu nivel mai mic decât valoarea pragului de mascare 1 pe acea frecvenţă va fi inaudibilă, deci imperceptibilă auzului uman Prezenţa unor asemenea componente spectrale în spectrul semnalului audio este redundantă, neglijarea lor totală poate duce la o reprezentare eficientă, cu distorsiuni de reconstrucţie imperceptibile, a semnalului audio Se poate observa că în spectrul de semnal audio din figura 7 2 componenta T este o astfel de 3 componentă redundantă Alura acestei curbe poate fi modelată prin funcţia, [Luo 95]: 28 ξ () ⋅ξ ξ≤ξ 11maxT ξ 1 =ξ T (7 2) () ξ −1 10 ξ () ⋅ξ ξ>ξ 11maxT ξ 1 reprezintă pragul de mascare a componentei T pe frecvenţa proprie, ξ, a acesteia, unde () 1maxTξ11 exprimat în valori efective Această valoare este dependentă de natura componentei de mascareT în 1 169 sensul că ia valori diferite dacă această componentă este una tonală sau una netonală Expresia (7 2) ξT se exprimă în decibeli, indică o funcţie neliniară în variabila frecvenţă În mod curent funcţia () ξ 1 Se poate observa faptul că panta caz în care aceasta va fi o expresie liniară în variabila frecvenţă ξ acestei curbe de mascare este mult mai abruptă la frecvenţe mai mici decât cea a componentei de mascare,ξ 1, în comparaţie cu panta acesteia la frecvenţele mai mari decât aceasta În aplicaţiile practice curba de mascare trebuie evaluată pentru toate componentele de semnal (tonale sau netonale) ce au nivele ce pot masca alte componente Astfel, prin acest procedeu se poate stabili o curbă de mascare globală, utilă în dimensionarea sistemului de compresie (mai ales în cea a dimensionării cuantizoarelor) Găsirea curbei implică însă un număr mare de operaţii motiv pentru care, în aplicaţiile practice, se folosesc procedee aproximative de evaluare Astfel, atât curba pragului absolut de audibilitate (figura 7 1) cât şi curbele de mascare (conform figurii 7 2) sunt evaluate pe o scară frecvenţială modificată, mai bine adaptată la structura de benzi critice a modelului sistemului auditiv uman folosit Unitatea de măsură pe această scară este Bark-ul, un Bark fiind egal cu distanţa dintre două benzi critice Cum însă benzile de frecvenţe ale acestor benzi critice nu sunt egale (vezi tabelul 7 1), rezultă o funcţie neliniară de transformare a variabilei independentă frecvenţă Nu se cunoaşte o expresie analitică exactă a acestei funcţii de transformare, se lucrează însă, în mod curent, cu o serie de funcţii ce o aproximează cu o acurateţe mai bună sau mai puţin bună Un exemplu de o astfel de funcţie este dată de expresia (7 3), [Mor 95] 2 [] [] ξ ξ bHzHz arctg5 376 0arctg13Bark (7 3) ⋅+ [] ⋅⋅=ξ 75001000 Această expresie oferă o aproximare foarte bună a legii de transformare a frecvenţelor în domeniul kHz Ea are o evoluţie aproximativ liniară până pe la frecvenţa de 500 Hz şi apoi de frecvenţe 240 ÷ o variaţie aproximativ logaritmică, la frecvenţe mai mari decât aceasta Utilitatea folosirii unităţii Bark în evaluarea curbelor de mascare constă în absenţa selectivităţii urechii umane în interiorul unei benzi critice ceea ce ne permite ca aceste curbe să fie aproximate prin segmente drepte în diferitele benzi critice, fără a introduce erori de aproximare prea mari şi fără a compromite utilitatea modelului Evident, exprimate în Bark, benzile critice au lăţimi egale (unitare) şi frecvenţe centrale întregi Astfel, se reduce în mod considerabil, numărul de operaţii necesare stabilirii curbei globale de mascare Valoarea pragului global de mascare dintr-o subbandă permite definirea raportului semnal pe nivel de mascare, SMR, în acea subbandă Prin codarea cu pierdere a semnalelor subbandă se introduce, în mod inevitabil, un zgomot de cuantizare peste componenta utilă Totuşi codarea este considerată ca fiind transparentă dacă raportul semnal pe zgomot, SNR, este mai mare decât raportul SMR din acea subbandă Este aşa deoarece în această situaţie zgomotele de cuantizare rămân imperceptibile auzului uman, ele fiind mascate în totalitate de componentele utile ale semnalului Un sistem de compresie de semnal audio, bazat pe codarea subbandă a semnalului, poate ţine cont de proprietăţile psiho-acustice a sistemului auditiv uman prin evaluarea rapoartelor SMR din fiecare subbandă şi folosirea acestora în dimensionarea cuantizoarelor folosite Calculul pragului global de mascare are la bază ipoteza conform căreia efectele de mascare sunt aditive (efectul global egal cu suma efectelor individuale de mascare) O componentă frecvenţialăξ i(de frecven ţă i în Bark), din spectrul unui semnal audio poate fi mascat de orice componentă ξ j (de frecvenţă j în Bark), tonală sau netonală, de pe orice altă frecvenţă Bineînţeles panta mare de descreştere a curbelor de mascare a acestor componente va face ca efectul lor să fie j,iT şi ()j,iT nivelul de mascare pe resimţit doar în câteva benzi critice vecine ale lor Definind () tn 170 frecvenţa i (în Bark) a unei componente tonale cu frecvenţa j şi respectiv a unei componente netonale din banda critică j, exprimate în decibeli, nivelul global de mascare în banda critică i este: NN () () () j,iT1 0j,iT1 0iT1 0 ⋅⋅⋅ nta [] () ++= 10101010log10dBiM (7 4) == 1j1j unde N reprezintă numărul total al benzilor critice Evident, funcţiile () j,iT şi ()j,iT pot fi tn definite folosind o expresie rescalată şi evaluată în decibeli a funcţiei () ξT dată de relaţia (7 1), ξ j )Tξ unde constanta ( jmax ţine cont de natura tonală sau netonală a componentei de mascare j 7 3 Sistemul de codare MPEG-Audio 7 3 1 Nivelele 1,2 şi 3 ale codării MPEG-1 Audio MPEG-Audio este denumirea comună utilizată pentru referirea părţii de codare audio a seriilor de standarde MPEG de codare audio-video Astfel, MPEG-1-Audio este o recomandare ce cuprinde trei nivele de codare perceptivă a semnalului audio, cu o complexitate de implementare din ce în ce mai ridicată dar şi cu o fidelitate de reproducere din ce în ce mai bună în aceleaşi condiţii de lucru Ele vor fi referite sub denumirile MPEG-1L I, MPEG-1L II şi MPEG-1L III Toate cele trei nivele prevăd o procedură de codare bazată, într-o primă etapă, pe o schemă de filtrare în subbenzi Este folosită, în acest scop, o bancă de filtre polifază cu 32 de subbenzi frecvenţiale de lăţimi egale (750Hz la o frecvenţă de eşantionare de 48kHz) În cazul primelor două nivele, semnalele subbandă sunt prelucrate pe blocuri parţial suprapuse (cu o lungime de 8 ms la frecvenţa de eşantionare mai sus menţionată), folosind o procedură adaptivă de codare Procedura prevede, în vederea realizării unei codări transparente de semnal, folosirea unuia dintre cele două modele psiho-acustice, cunoscute sub denumirile de Model Psiho-acustic I şi Model Psiho-acustic II Ambele nivele de codare permit, ca şi parametru de intrare, specificare ratei de bit medie dorită în funcţie de care procedura de alocare de bit adaptivă va putea sau nu să ofere transparenţa dorită în codare Frecvenţele de eşantionare suportate sunt 32, 44 1 şi 48 kHz Rezultate subiective, [Iso 92], indică o rată de bit medie necesară de 384 kbps (şi respectiv 192 kbps) pentru o codare transparentă a unui semnal stereo folosind MPEG-1L I (respectiv MPEG-1L II) Ţinând cont de faptul că semnalul audio stereo, eşantionat cu 48 kHz şi codat PCM pe 16 biţi (fiecare eşantion), implică o rată de bit efectivă de 1536 kbps, rezultă un factor de compresie de aproximativ 4 (respectiv de aproximativ 8) Schema bloc a unui codor/decodor MPEG-1 se prezintă în figura 7 3 Intrare Bancã de Scalare si filtre de ANALIZÃ Cuantizare PCM Cadru MPEG MUXD Informatii de scalare Alocare de Prag de bit dinamicã FFT Mascare a) 171 Iesire Bancã de Decodare filtre de Dinamicã PCM SINTEZÃ Cadru MPEG DMUX Decodare Inf Alocare de bit b) Figura 7 3 a) Codorul MPEG1 L I, L II; b) Decodor MPEG1 L I, L II Secvenţa audio de la intrare, codată PCM, este trecută printr-o bancă de filtre la ieşirea căreia se regăsesc cele 32 semnale subbandă (subeşantionate corespunzător în vederea conservării ratei de bit totale) În mod simultan, semnalul este trecut şi printr-un model psiho-acustic în vederea stabilirii pragurilor de mascare (rapoartele SMR), din fiecare subbandă Componentele spectrale sunt cuantizate şi codate în mod adaptiv, urmărind menţinerea nivelului zgomotului de cuantizare din fiecare subbandă sub nivelul pragului de mascare Procedura de alocare de bit încearcă rezervarea unui număr de biţi de codare fiecărei subbenzi, în limita numărului total de biţi disponibili, astfel încât să rezulte un raport SQNR mai mare decât cel SMR în fiecare dintre ele Dacă acest lucru nu se reuşeşte, codarea se va face utilizând biţii de codare disponibili, permiţând deci, depăşirea pragului de mascare de către nivelul zgomotelor de cuantizare din anumite subbenzi Procedura de alocare de bit, precum şi cel de stabilire a unui factor de scară, se aplică unor blocuri de eşantioane succesive În cazul MPEG-1L I fiecare asemenea bloc conţine un număr de 12 eşantioane succesive din fiecare subbandă Totodată acesta foloseşte Modelul Psiho-acustic I, în vederea evaluării pragurilor de mascare Dacă numărul de biţi alocaţi unui astfel de grup (de 12x32=384 eşantioane) este diferit de zero, se caută un factor de scară (o cuantă), ce maximizează rezoluţia unui cuantizor uniform Determinarea numărului de nivele de cuantizare este controlată de modelul psiho-acustic În vederea stabilirii numărului de biţi necesari menţinerii zgomotului de cuantizare sub pragul de mascare codorul dispune de tabele de corespondenţă număr de biţi - număr de nivele de cuantizare Fiecare grup de eşantioane cuantizate primeşte un antet (ce conţine informaţii auxiliare cum sunt cele de identificare metodă, nivelul cuantei, biţi de sincronizare etc ) şi formează un cadru MPEG (un element constructiv de bază) în structura fluxului de biţi rezultat Fiecare cadru MPEG conţine toate informaţiile necesare decodării unui grup de eşantioane codate Procedura de decodare presupune parcurgerea acestor paşi în sens invers Aceasta presupune obţinerea, prin demultiplexarea cadrului MPEG, a informaţiilor de control necesare decodării corecte a şirului de biţi, ce codifică grupul curent de eşantioane Prin conversie CNA se reconstruiesc eşantioanele subbandă care apoi sunt trecute printr-o bancă de filtre de sinteză în vederea obţinerii eşantioanelor audio codate PCM MPEG-1L II, spre deosebire de MPEG-1L I, foloseşte Modelul Psiho-acustic II, ce este o versiune mai complexă, dar şi mai precisă, a Modelului Psiho-acustic I De fapt, MPEG-1L II este o versiune îmbunătăţită MPEG-1L I El oferă şi anumite facilităţi suplimentare în ceea ce priveşte codare semnalelor subbandă cuantizate Îmbunătăţeşte performanţele de codare printr-o procedură de codare pe blocuri mai mari Acestea sunt formate, în principiu, din trei grupări succesive de 384 de eşantioane (în total 1152 de eşantioane) Alocarea de bit are loc la nivelul unui astfel de bloc şi sunt permise trei valori diferite ale factorului de scară (fiecare subgrupă dintre cele trei poate avea propriul ei factor de scară) Toate cele trei nivele MPEG-1 Audio utilizeaza aceeaşi structură de bancă de filtre polifază uniformă Cel de al treilea nivel, MPEG-1L III, are complexitatea cea mai mare, dar oferă şi performanţele de codare cele mai bune Schema bloc codorului, şi respectiv decodorului MPEG- 1L III, se prezintă în figura 7 4 Acest nivel de codare prevede utilizarea, în vederea îmbunătăţirii 172 rezoluţiei frecvenţiale, a unor transformări MDCT, aplicate eşantioanelor subbandă Aceaste transformări sunt calculate folosind ferestre temporale dinamice, cu lungimi variabile, în vedere unui control mai eficient a fenomenului de apariţie a unor ecouri anticipative (pre-ecouri) Eşantioanele de la ieşirea blocului MDCT sunt cuantizate folosind o procedură de cuantizare neuniformă Această prevedere are la bază faptul că erori de cuantizare mai mari sunt suportabile la nivele de semnal mai mari Partea de alocare de bit a acestuia introduce o nouă tehnică de gestionare eficientă a biţilor disponibili, folosind conceptul de rezervor de biţi Intrare Bancã de MDCT Scalare si Codare filtre de cu fereastrã Huffman Cuantizare PCM ANALIZÃ dinamicã Cadru MPEG MUXD Codare Prag de informatii FFT Mascare auxiliare a) Iesire Bancã de Invers Decodare filtre de MDCT Huffman PCM şi CNA Cadru MPEG SINTEZÃ DMUX Decodare Inf Alocare de bit b) Figura 7 4 a) Codorul MPEG1 L III; b) Decodor MPEG-1 L III MPEG-1L III suportă, de asemenea, codare/decodare cu rată de bit variabilă Ultima etapă de codare prevede o procedură de codare entropică a datelor, o codare Huffman, în timp ce informaţiile auxiliare (cele de descriere a nivelelor de cuantizare, factorul de scalare etc), sunt codate folosind o procedură de tip Run-Length O metodă iterativă de analiză prin sinteză este utilizată pentru a menţine zgomotul de cuantizare sub nivelul de mascare în timp ce procesul de scalare, cuantizare şi codare entropică al eşantioanelor spectrale este reiterat în buclă Decodarea cadrului MPEG obţinut, în mod similar cazurilor anterioare (L I şi L II), se face prin simpla inversare a paşilor de codare: extragere parametri de codare, decodare Huffman, transformare MDCT inversă şi trecerea prin filtrele de sinteză Cele trei nivele de codare MPEG-2 Audio sunt similare nivelelor corespunzătoare MPEG-1 Audio, permiţând însă şi frecvenţe de eşantionare mai reduse (de 16kHz, 22 05kHz şi respectiv 24 kHz) şi evident rate de biţi mai mici (ajungând de până la 64 kbps) Componenta MPEG-2 AAC, o componentă nouă şi incompatibilă cu celelalte trei nivele, aduce performanţe noi cum sunt: - utilizează o bancă de filtre cu o rezoluţie frecvenţială mult îmbunătăţită, - permite folosirea unor tehnici de predicţie în codarea eşantioanelor subbandă, - permite utilizarea unor metode iterative de cuantizare şi codare entropică, - permite codare cu rată de bit variabilă 173 7 3 2 Modelul psiho-acustic utilizat în codările MPEG Modelul Psiho-acustic I şi respectiv II reprezintă cele două abordări ale unui model psiho- acustic prevăzut de standardele de codare MPEG-Audio Fenomenul de mascare audio precum şi principiile care stau la baza elaborării modelelor psiho-acustice au fost introduse în §7 2 2 al prezentului capitol Modelul Psiho-acustic I, utilizat în codările MPEG, [Iso 92], îşi propune evaluarea, pe baza unui cadru curent de eşantioane audio, a pragului global de mascare Acesta, exprimat în decibel, poate fi aproximat conform definiţiei (7 4), ce presupune evaluarea, în decibeli, a expresiilor ξT, precum şi a funcţiilor de mascare (),Tξξ şi (),Tξξ (ce pragului absolut de audibilitate () ajitjin , şi respectiv indică nivelele de mascare pe frecvenţaξ i a unei componente tonale, cu frecvenţa jξ netonală din banda critică centrată pe frecvenţa ξ j) Modelul presupune faptul că un semnal audio poate fi considerat, în general, ca fiind compus din unde acustice pure - componente tonale, peste care se suprapun sunete ce nu sunt tonale şi sunt modelate prin zgomote de bandă îngustă - componete netonale În vederea unei evaluări rapide a acestor funcţii, evaluarea are loc la nivelul benzilor critice ale modelului psiho-acustic Astfel, puterile componentelor netonale sunt calculate în limita acestor benzi critice În acest scop, toate frecvenţele sunt exprimate în Bark iar valorile pragului absolut de audibilitate, din punctele frecvenţiale centrale ale acestor benzi critice, sunt ),Tξξ(),Tξξ precalculate şi tabelate În vederea evalării funcţiilor de mascare ( jit şi jin sunt utilizate expresii liniare, aproximative Aceste expresii ţin cont de dependenţa curbei de mascare atât de puterea componentelor de mascare cât şi de natura tonală sau netonală a acestora Există deci patru cazuri de analiză în funcţie natura componentei de mascare în raport cu cea a componentei mascate Aceste cazuri sunt tonal/tonal (componentă tonală mascată de o altă componentă tonală), tonal/netonal, netonal/tonal şi netonal/netonal Modelul Psiho-acustic I prevede expresii similare de ),Tξξ şi (),Tξξ, aplicabile în cele patru cazuri amintite calcul a funcţiilor de mascare ( jitjin Acestea sunt de forma: () () () )()T,baT,Tξξ−ξ+ξ+ξ=ξξ (7 5) ( iijiiiiji reprezintă nivelul, exprimat în decibel, al componentei de mascare din banda critică i, unde () iiTξ () ()T,bξξ−ξ o funcţie ce indică pragul de mascare din banda critică j dat de componenta de iiji mascare din banda critică i (ce depinde evident de diferenţa de frecvenţă şi de puterea componentei de mascare), iar () este un termen de corecţie ce ţine cont în mod explicit de natura (tonală sau iaξ netonală) componentei de mascare Funcţia () ()T,bξξ−ξ are expresia: iiji ()()() − ξ 1kxkx− () ( ) (7 9) ,SSξ≥ξ 1kxkx+ () ()dB7SS≥ξ−ξ jkxkx+ pentru: [] ,63k2daca2,2j [N] [Px /Perr] unde: cmp exe - este denumirea programului, fisier in wav - numele unui fişier în format standard * wav, N - primul parametru opţional ce indică tipul de funcţie Wavelet utilizată, Px/Perr - cel de al doilea parametru ce indică raportul minim de semnal pe zgomot dorit Rezultatele compresiei sunt memorate într-un fişier cu acelaşi nume (fisier in) însă capătă extensia * cmp Programul de reconstrucţie are sintaxa de apel: decmp exe [ ] unde: decmp exe - este denumirea programului de reconstrucţie, fisier in cmp - numele unui fişier audio comprimat, în format * cmp, fisier out wav - un parametru opţional, numele unui fişier în format standard * wav în care se memorează secvenţa audio reconstruită În absenţa parametrului opţional (numele fişierului rezultat), rezultatele reconstrucţiei vor fi memorate într-un fişier cu structura standard “wave” ce are aceeaşi denumire cu cea a fişierul * cmp indicat (dar cu extensia * wav) Câteva rezultate experimentale ale utilizării acestor programe, în vederea compresiei unei secvenţe audio stereofonice de calitate CD (eşantioane prelevate cu frecvenţa de 44100Hz şi codate PCM cu 16 biţi/eşantion) şi de lungime 3 58 s, se prezintă în tabelul 7 2 Tabelul 7 2 Factorul de compresie realizat, în funcţie de tipul funcţiei Wavelet folosite şi pentru diferite valori ale raportului semnal pe zgomot 181 Raport Px/Per r Ordin funcţie 50 100 200 Wavelet, N Raport de compresie 2 18 28293 14 27183 11 31611 3 20 41975 16 30223 13 18288 4 21 35537 17 05412 13 95142 5 22 10908 17 65667 14 43862 6 22 57396 18 06336 14 74008 7 22 71228 18 20808 14 87317 8 23 05539 18 44322 15 06460 9 23 30215 18 65093 15 15110 10 23 33183 18 74526 15 29926 Valorile factorului de compresie din tabelul de mai sus reprezintă valori medii (ale valorilor obţinute pentru diferitele blocuri ale secvenţei audio de intrare) ale raportului dintre numărul total de coeficienţi dintr-un bloc (4096 în cazul nostru) şi număr total al coeficienţilor nenuli din secvenţa cuantizată u[n] Aprecieri subiective indică un raport semnal pe zgomot (Px/Per) nu mai mic decât r 100, pentru o codare transparentă Figura 7 8 a prezintă primele 8096 de eşantioane (primele două blocuri) ale secvenţei audio, în timp ce figura 7 8 b prezintă semnalul audio reconstruit, în condiţiile în care codarea s-a făcut folosind funcţia Wavelet DAU-10, iar limita inferioară a raportului semnal pe zgomot impus era de 100 (20 dB) 4 x 10 1 0 5 0 -0 5 -1 0200040006000800010000 4 x 10a) 1 0 5 0 -0 5 -1 0200040006000800010000 b) Figura 7 8 Semnalul audio prelucrat; a) secvenţa de intrare, b) secvenţa reconstruită Rezultatele din tabelul 7 2 indică performanţe similare cu cele ale metodei MPEG, deşi comparaţia e greu de făcut din cauza măsurilor de calitate subiective utilizate în metoda MPEG Metoda propusă prezintă însă, cu certitudine, o complexitate a sistemului de compresie mai scăzută, ce permite o implementare mai uşoară şi o procedură de calcul mai rapidă Metoda propusă poate fi îmbunătăţită prin includerea unei strategii de selecţie automată a funcţiei Wavelet dintr-o mulţime de funcţii anterior prestabilită O asemenea soluţie, de codare universală, inspirată din [Rio 93], a fost prezentată de către autor în [Asz 98] Dezavantajul acesteia constă în faptul că ea implică o multiplicare a numărului de operaţii cerute (factorul de multiplicare fiind dat de numărul funcţiilor Wavelet avute în vedere) 7 4 2 Compresie de semnal audio prin dezvoltare în pachete de funcţii Wavelet În cel de al treilea capitol al acestei lucrări a fost introdusă, pe lângă transformarea Wavelet, transformarea în pachete de funcţii Wavelet A fost prezentat algoritmul transformării rapide în 182 pachete de funcţii Wavelet - FWPT (Fast Wavelet Packet Transform) şi respectiv cel invers, algoritmul invers al transformării rapide în pachete de funcţii Wavelet - IFWPT (Inverse Fast Wavelet Packet Transform) S-a arătat faptul că implementarea acestor algoritmi nu implică o complexitate mai mare decât cea a algoritmului FFT (un număr de NlogN operaţii) În §3 2 6 s-a subliniat faptul că analizele de semnal bazate pe descompuneri în baze de pachete de funcţii Wavelet pot fi ghidate de o funcţie cost, pe baza căreia pot fi căutate componentele unei baze ortogonale optime În general, odată stabilită o funcţie cost, aceste componente sunt identificate prin căutarea acelor baze de subspaţii care minimizează costul În §3 2 6 au fost indicate o serie de propuneri de funcţii cost Unele dintre ele, cum este numărul coeficienţilor mai mari decât un prag, sau cea de număr de biţi alocaţi reprezentărilor din diferitele subspaţii, sunt cu implicaţii directe în orice aplicaţie de compresie de semnal Această flexibilitate, oferită de transformarea în pachete de funcţii Wavelet în reprezentarea semnalului, poate fi uşor exploatată în construcţia unor sisteme de compresie de semnal Asemenea soluţii au fost propuse de către o serie de cercetători, ale căror rezultate sunt considerate, la ora actuală, de referinţă în domeniu Putem aminti lucrările [Coi 90], [Coi 92a], [Coi 92b], [Jay 93], [Eva 93], [Sin 93], [Ben 93], [Wic 94], [Wes 95], [Ali 95], [Wei 95], [Ali 96], [Ram 96], [Ham 96], [Ham 97], [Str 97], [Goy 98] Flexibilitatea oferită de aceste metode în reprezentarea semnalului de prelucrat, poate simplifica structura unor scheme de codare Astfel, în domeniul compresiei de semnal audio, ele pot îmbunătăţi performanţele unor codări perceptive, cum sunt de exemplu cele de codare MPEG-Audio O asemenea propunere se prezintă în cele ce urmează Structura sistemului de compresie, propus de M Ali în [Ali 95], se arată în figura 7 9 Model psiho-acustic Informaţii Codare (FFT) de mascare informaţii auxiliare Selecţie optimală Codare Formare Semnal Segmentare funcţie Wavelet coeficienţi Audio şi alocare de bit pachet Audio adaptivă DWT comprimat Figura 7 9 Sistem adaptiv de compresie Wavelet Semnalul prelucrat este o secvenţă audio monofonică, de calitate CD (eşantioane prelevate cu frecvenţa de 44 1 kHz şi codate PCM cu 16 biţi/eşantion) Transparenţa în codare se obţine prin utilizarea unui model psiho-acustic similar cu cel utilizat de sistemele MPEG-Audio Noutatea schemei constă în banca de filtre utilizată Spre deosebire de procedurile MPEG, sistemul din figura 7 9 foloseşte o bancă de filtre neuniformă echivalentă cu o transformare în pachete de funcţii Wavelet (echivalenţă abordată în §3 2 4 al acestei lucrări) Banca de filtre propusă este construită folosind funcţii Wavelet ortogonale cu suport compact, ce implică lungimi finite ale filtrelor Wavelet implicate În cazul de faţă această lungime, a filtrelor de analiză şi sinteză, este de L=40 Reamintim faptul că funcţiile, pot avea un număr maxim de N=20 de momente nule, cerinţă verificată doar de către funcţiile lui Daubechies, acestea fiind astfel cele mai regulate din familia respectivă Alegerea funcţiei Wavelet optimale se face în mod adaptiv, din cadrul clasei, în timp ce structura băncii de filtre este fixă A fost adoptată o structură ce aproximează foarte bine benzile critice ale modelului psiho-acustic Arborele binar asociat transformării FWPT utilizate are forma celei din figura 7 10 183 g h Nivel j=0 g j=1 h h g j=2 h g g g h g h h j=3 h g g h h g h g j=4 g g h g g h g h h h j=5 Figura 7 10 Arborele binar asociat transformării FWPT Tabelul 7 3 indică benzile de frecvenţe ale subbenzilor obţinute în urma descompunerii în pachete de funcţii Wavelet Tabelul 7 3 Aproximarea benzilor critice de către descompunerea FWPT cu arborele binar din figura 7 10 Numărul Domeniu de frecvenţă Domeniu de frecvenţă benzii bandă critică subbandă critice (ξ ), [Hz] (ξ÷), [Hz] min÷maxξminmaxξ 1 0 -100 0 - 688 2 100 - 200 3 200 - 300 4 300 - 400 5 400 - 510 6 510 - 630 7 630 - 770 8 770 - 920 688 - 1375 9 920 - 1080 10 1080 - 1270 11 1270 - 1480 12 1480 -1720 1375 - 2062 13 1720 - 2000 14 2000 - 2320 2062 - 2750 15 2320 - 2700 16 2700 - 3150 2750 - 3437 17 3150 - 3700 3437 - 4125 18 3700 - 4400 4125 - 4812 19 4400 - 5300 4812 - 5500 20 5300 - 6400 5500 - 6188 21 6400 - 7700 6188 - 6875 6875 - 8250 22 7700 - 9500 8250 - 9625 23 9500 - 12000 9625 - 11000 24 12000 - 15500 11000 - 13750 13750 - 16500 25 15500 - 22100 16500 - 19250 19250 - 22100 Se observă faptul că, deşi benzile de frecvenţe ale diferitelor subbenzi sunt mult mai bine adaptate benzilor critice ale modelului psiho-acustic decât cele 32 benzi uniforme ale codărilor MPEG, există subbenzi ce acoperă mai multe benzi critice (cele de la frecvenţe joase) în timp ce altele (la frecvenţe mai înalte) acoperă doar o porţiune a uneia dintre acestea O implementare similară celei din figura 7 9, folosind o bancă de filtre neuniformă, cu un kHz) în 38 de subbenzi, arbore binar ce prevede o împărţire a benzii de frecvenţe audio (220500÷ ce elimină problema acoperirii de către o subbandă a mai multor benzi critice, este propusă de J F 184 Luo şi B G Sherlock în [Luo 95] O astfel de diviziune a benzii de frecvenţe audio prezintă avantajul simplităţii constructive a cuantizoarelor adaptive precum şi cea a procedurii de alocare de bit optimală Astfel, o asemenea structură necesită alocarea unui număr egal de biţi tuturor eşantioanelor subbandă dintr-o anumită subbandă Acest număr se determină, după cum am văzut în paragrafele precedente, în scopul menţinerii nivelului zgomotelor de cuantizare sub nivelul pragului de mascare oferit de modelul psiho-acustic, controlat, în anumite cazuri, de o eventuală restricţie de rată de bit Sistemul de compresie, cu schema bloc din figura 7 9, operează pe blocuri de eşantioane ale secvenţei audio de intrare parţial suprapuse Lungimea implicită a unui bloc de eşantioane este de M=2048 (aproximativ 46 ms de semnal audio) Sistemul poate opera cu blocuri de lungime variabilă, lungimea efectivă a blocului curent de date se determină printr-o procedură de segmentare adaptivă (pornind cu lungimea implicită mai sus indicată) Aceasta, folosind un criteriu entropic, permite un control eficient al fenomenului de pre-echo (de anticipare a unei schimbări bruşte ale nivelului de semnal), prin identificarea şi fragmentarea blocurilor ce conţin variaţii mari şi rapide de nivel ale semnalului prelucrat Blocurile de eşantioane sunt netezite, prin înmulţirea cu o funcţie fereastră de tip Hanning, în vederea atenuării efectelor de margine Modelul psiho-acustic utilizat furnizează, folosind o procedură bazată pe transformarea FFT, valorile pragului de mascare din diferitele benzi critice, valori ce, pe baza corespondenţei de benzi prezentată în tabelul 7 3, sunt convertite în cele ale pragului de mascare din subbenzile Wavelet Aceste valori controlează direct procedura de alocare de bit eşantioanelor subbandă în faza de codare Schema folosită permite, după cum s-a specificat, alegerea filtrului Wavelet optimal, dintr-o mulţime de filtre Wavelet ce au lungimi egale (L=40) Căutarea acestuia se face în mod adaptiv fiind evaluat, pentru fiecare filtru în parte, numărul total al biţilor alocaţi codării transparente a blocului curent de semnal audio Cuantizarea propusă este una neuniformă de tip log-PCM, similară propunerii autorului din paragraful precedent În vederea cuantizării se identifică, în fiecare subbandă, valoarea maximă a nivelului de semnal, ce este folosită pe post de factor de scară în procesul de rescalare a valorii eşantioanelor ce urmează a fi cuantizate Cuantizarea efectivă are loc în funcţie de numărul biţilor alocaţi eşantioanelor subbandă (numărul zero indicând neglijarea acelor eşantioane) Ultima etapă a procesului de compresie constă dintr-o codare entropică, de tipul Run-Length (RL) modificată Aceasta identifică şi codifică secvenţe compacte de biţi de 0 logic ce au ca lungimi o putere a lui 2 (limita maximă fiind de 128) Ea oferă un factor de compresie mai mic decât codarea RL standard însă prezintă avantajul faptului că este mult mai rapidă, şi mai uşor de implementat Rezultatele raportate de M Ali, [Ali 95], indică o codare transparentă de semnal kbps Aceste valori sunt uşor mai audio monofonic la rate de biţi cuprinse în intervalul 6355÷ scăzute decât cele mai bune rezultate ale codării MPEG-Audio De asemenea, implementări în timp real ale procedurii de compresie simplificată (ce nu prevăd o identificare adaptivă a filtrului Wavelet optimal), folosind un procesor de semnal de tip TMS320C31, ajung la performanţa unei rate de bit, în aceleaşi condiţii de semnal, cuprinsă în kbps, [Ali 95] intervalul 7864÷ Spre deosebire de această soluţie, cea propusă de J F Luo şi B G Sherlock în [Luo 95], pe lângă faptul că propune o bancă de filtre mai bine adaptată la structura de benzi critice a modelului psiho-acustic, bazată pe concluzia (enunţată şi în [Sin 93]) conform căreia la o aceeaşi lungime a filtrelor Wavelet utilizate, sistemul Wavelet cel mai regulat se dovedeşte a fi cel mai bun pentru majoritatea cazurilor de semnal audio, aceasta prevede căutarea adaptivă a filtrului optim în clasa filtrelor Daubechies cu diferite lungimi Sunt permise folosirea, în cadrul băncii de filtre utilizate, a diferite tipuri de filtre la diferitele nivele ale descompunerii, alegerea fiind ghidată de un criteriu suplimentar de întârziere minimă de codare Astfel, în benzile de frecvenţe joase se lucrează cu filtre 185 Wavelet mai scurte în timp ce la frecvenţe mai înalte cu filtre mai lungi Metoda de cuantizare propusă este una adaptivă ce prevede identificarea unor factori de scară în fiecare subbandă şi pentru fiecare bloc de eşantioane prelucrat Ca şi informaţii auxiliare sunt codate doar diferenţele de valori, de la un bloc la altul, ale nivelelor acestor factori de scară Alocarea de bit efectivă se face, într-un mod similar procedurii de codare MPEG-1 L III, folosind o buclă de ajustare bazată pe evaluarea, prin sinteză de semnal, a nivelului actual al zgomotului de cuantizare (de reconstrucţie) Această procedură mai poartă denumirea şi de “modelarea zgomotului de cuantizare”, şi are performanţe mai bune decât cea bazată pe tabele de corespondenţă, însă şi o complexitate mai ridicată Rezultatele obţinute indică o codare aproape transparentă de semnal audio monofonic la kbps rate de biţi cuprinse în intervalul 6648÷ În cele ce urmează se prezintă o propunere originală a autorului, de sistem de compresie adaptivă de semnal audio, bazată pe descompunerea semnalului în pachete de funcţii Wavelet Schema de principiu a părţii de codare a sistemului se prezintă în figura 7 11 ]n[x wp[n] y[n] ][ˆnyu[n] x x(t) Eşant / Cuantiz / Codare v[n] Selecţie FWPT λ cuantiz bază coodare de bit entropică Figura 7 11 Sistem adaptiv de compresie cu pachete de funcţii Wavelet Primul bloc din cadrul acestui sistem realizează o eşantionare urmată de o cuantizare uniformă fină (pe 16 biţi) a semnalului Se obţine secvenţa numerică cu valori discrete x[n] Această secven ţă este considerată ca pornire în aplicarea algoritmului rapid al transformării în pachete de funcţii Wavelet (FWPT) a semnalului de intrare Această procedură prevede o descompunere pe mai multe nivele a secvenţei x[n] prin operaţii de filtrări succesive Prelucrare se face pe blocuri de eşantioane de lungimi finite (N=1024 sau 2048) Metoda de prelucrare utilizată este cea pe blocuri de eşantioane parţial suprapuse Astfel, din cele 1024 (sau 2048) de eşantioane ale blocului reconstruit sunt reţinute doar un număr de 1000 (sau 2000) de eşantioane, considerate utile Filtrele utilizate sunt filtrele Wavelet corespunzătoare funcţiei Wavelet considerate Alegerea funcţiei Wavelet are la bază observaţia făcută de J F Luo şi B G Sherlock în [Luo 95], conform căreia sistemul Wavelet cel mai regulat se dovedeşte a fi cel mai bun pentru majoritatea cazurilor de semnal audio Astfel, într-o primă etapă, a fost preferată funcţia DAU-20, funcţie Wavelet a lui Daubechies cu 20 de momente superioare nule Aceasta implică şi cele mai scurte filtre Wavelet posibile (L=40) dintre toate funcţiile Wavelet ce au acelaşi număr de momente nule Cu costul unei complexităţi mai semnificative poate fi făcută o selecţie optimală dintr-o mulţime de funcţii Wavelet disponibile Într-o primă variantă a sistemului de codare, numărul maxim J, al iteraţiilor aplicării algoritmului FWPT, este şi el fix (J=3 sau 5) Arborele binar asociat transformării FWPT este cel cu arborescen ţă totală, cu J nivele Rezultatul acestei etape constă dintr-o mulţime de coeficienţi Wavelet (de J-ori mai mulţi decât numărul eşantioanelor semnalului de la intrare) ce corespund dezvolării semnalului prelucrat în diferitele pachete de funcţii Wavelet Urmează o procedură de selecţie a bazei de funcţii Wavelet optimale Procesul are la bază funcţia cost “maximizarea numărului de coeficienţi Wavelet cu magnitudine mai mică decât un anumit prag impus” Căutarea celei mai bune baze are loc conform algoritmului prezentat în §3 2 5 Astfel, spre deosebire de propunerea lui A H Tewfik şi M Ali din [Ali 95], ce prevede o structură fixă a băncii de filtre (din nevoia unei cât mai bune aproximări a benzile critice ale unui model psiho-acustic), se poate spune că sistemul de compresie din figura 7 11 lucrează cu o bancă de filtre cu structură variabilă, optimală prelucrării blocului curent de eşantioane Alegerea pragului de comparaţie folosit de funcţia cost se face în mod adaptiv, în funcţie de nivelul maxim al semnalului din blocul curent de 186 eşantioane Alegerea adaptivă a fost impusă din dorinţa asigurării unei anumite valori minime a raportului semnal pe zgomot de cuantizare Această valoare minimă impusă poate fi specificată ca şi parametru din linie de comandă, o reconstrucţie de calitate a semnalului audio necesitând cel puţin o valoare de 20 dB a acestuia Este posibilă implementarea unui control al pragului de comparaţie similar celui oferit de procedura (6 5) Aplicarea ei este însă mai dificilă datorită structurii mereu schimbătoare a sistemului Astfel, soluţia propusă prevede o evaluare a SQNR, conform procedurii (6 5), urmată de o re-evaluare a valorii pragului λ şi de o re-iterare a procedurii de selecţie a celei mai bune baze, folosind noua valoare a pragului Secvenţa y[n], în conformitate cu notaţiile din figura 7 11, reprezintă coeficienţii descompunerii Wavelet, în cea mai bună bază de funcţii Wavelet, a semnalului prelucrat Conform criteriului de cost folosit acest lucru înseamnă faptul că secvenţa conţine cei mai mulţi coeficienţi Wavelet de valori mai mici decât cea a pragului de comparaţie λ De remarcat este faptul că această secvenţă are lungimea blocului de eşantioane x[n], a semnalului prelucrat Este posibilă, prin transformare inversă, o reconstrucţie exactă a eşantioanelor x[n] Neglijarea efectivă a unor valori din secvenţă are loc în pasul următor, cel de comparare cu pragul λ Valorile de coeficienţi y[n], mai mici decât pragul sunt anulaţi, rezultând secvenţa de coeficienţi[] nyˆ, ce conţine un număr minim de coeficienţi de valori diferite de zero În fond, această secven ţă reprezintă imaginea compactată a semnalului de intrare Următorul bloc, cel de cuantizare şi codare de bit operează doar cu valorile nenule ale nyˆ Sistemul, cu schema bloc din figura 7 11, foloseşte un cuantizor secvenţei de coeficienţi[] uniform cu 256 de nivele de cuantizare, urmat de o codare pe 8 biţi a fiecărui coeficient cuantizat Operaţia de cuantizare, prin natura sa, introduce erori suplimentare Nivelul acestor erori nu introduce însă, conform experimentelor efectuate, 2-3 dB în plus faţă de cea introdusă de operaţia de “thresholding” (anularea coeficienţilor mai mici decât pragul λ) O cuatizare neuniformă, cu o funcţie de compandare logaritmică, poate asigura o reducere, sub 1 dB, a distorsiunii suplimentare introdusă de această operaţie Însă performanţa este plătită cu o eficien ţă mai redusă a codării entropice, deci cu scădere a factorului de compresie În vederea obţinerii unui factor de compresie maxim posibil, sistemul de compresie din figura 7 11 a fost prevăzut şi cu un bloc de codare entropică Se caută o cât mai bună reprezentare binară a secvenţei u[n] (de coeficienţi[] nyˆ cuantizaţi şi codaţi) Ţinând cont de structura generală a acestei secvenţe u[n] (cu multe valori nule), metoda de codare entropică cea mai potrivită, deci cea recomandată, este cea de tip Run-Length (RL) Astfel, blocul de codare entropică operează după cum urmează: - codează Run-Length, operând pe biţi, şirul de biţi u[n], al secvenţei [] nyˆ, - codează, pe un număr variabil de biţi, codurile Run-Length ale datelor, anterior obţinute, - codează, prin metoda Lempel-Ziv (LZ), şirul de biţi al codurilor Run-Length, - codul LZ împreună cu informaţiile auxiliare este asamblat în cadre de cod Sistemul de compresie din figura 7 11 a fost implementat sub forma unui program scris sub mediul de programare Matlab Acest program are două componente majore: un modul de codare şi unul de decodare Ambele sunt funcţii Matlab de tipul “cu lansare din linia de comandă” Sintaxa de apel a celei de compresie este: WPcmp ( , [N], [Px /Perr]) unde: WPcmp - este denumirea programului, fisier in wav - numele unui fişier în format standard * wav, N - primul parametru opţional ce indică tipul de funcţie Wavelet, DAU-N, utilizat, 187 Px/Perr - un al doilea parametru opţional ce indică raportul minim de semnal pe zgomot dorit Rezultatele compresiei sunt memorate într-un fişier cu acelaşi nume (fisier in) însă ce capătă extensia * cmp Valorile implicite folosite (în absenţa specificărilor opţionale) sunt: N=20, Px/Per=100 (20 dB) r Sistemul acceptă ca şi date de intrare, conţinutul unor fişiere în format standard “wave” Ele conţin semnale audio mono- sau stereofonice, eşantionate critic şi codate PCM pe 8 sau 16 biţi/eşantion Procedura de prelucrare este una orientată pe semnale monofonice Un semnal stereofonic este prelucrat sub forma a două proceduri de prelucrare monofonică simultană (nefolosindu-se de corelaţia intrinsecă existentă între cele două componente ale unui semnal stereofonic) Rezultatul codării, fişierul * cmp, trebuie să conţină toate informaţiile necesare reconstrucţiei semnalului audio, în limita criteriului de performanţă impus Structura generală a acestui fişier de date, rezultat în urma codării, este prezentată în figura 7 12 1 Frecvenţa de eşantionare, tip - cu o lungime de 36 de biţi funcţie Wavelet 2 Antet primul Bloc - cu o lungime de 68 de biţi 3 Codurile LZ ale codurilor RL - de lungime variabilă 4 Vector poziţie al vectorului de - de lungime variabilă indexare al codurilor RL 2 Antetul celui de al doilea Bloc - cu o lungime de 68 de biţi 3 Codurile LZ ale codurilor RL - de lungime variabilă 4 Vector poziţie al vectorului de - de lungime variabilă indexare al codurilor RL … … … Figura 7 12 Structura fişierului de date comprimate Primii patru octeţi (32 de biţi) din fişierul comprimat conţin specificarea frecvenţei de eşantionare folosită la discretizarea semnalului audio continuu, de prelucrat Aceasta este necesară unei eventuale reconstrucţii în timp real, sau reconstrucţiei corecte a unui fişier de tip “wave” de eşantioane audio în format PCM Primul câmp mai conţine, specificat pe patru biţi, un identificator de funcţie Wavelet utilizată Urmează trei câmpuri, ce se succed în aceeaşi ordine, în mod repetitiv, pentru fiecare bloc de 1024 (sau 2048) de eşantioane prelucrate Conţinutul acestor câmpuri este dat de metoda anterior amintită de codificare entropică a eşantioanelor de valoare nenulă Astfel, câmpul numărul 2 este un antet ce conţine informaţiile de control necesare decodării corecte a blocului curent de eşantioane Aceasta are o lungime fixă de 68 de biţi ce conţine: - specificat, pe 16 biţi, arborele binar al transformării FWPT, - specificat, pe 32 de biţi, factorul de scală utilizat de cuantizorul din structura schemei de compresie Acesta este dat în reprezentarea cu virgulă flotantă a unui număr real cu precizie dublă, - specificat, pe 10 biţi, lungimea vectorului de poziţie al vectorului de indexare al codurilor RL, - specificat, tot pe 10 biţi, lungimea efectivă a codurilor LZ ale datelor şi vectorului de indexare date Următoarele două câmpuri (3 şi 4) conţin codurile LZ, ale codurilor RL a secvenţei u[n] (câmpul 3), precum şi cele de localizare (de poziţie) a unor coduri RL (cele care au lungime diferită de cele cu frecvenţa maximă - în câmpul 4) Este vorba de vectorul de poziţie al vectorului de indexare al codurilor RL Acest vector este un rezultat al procedurii de codare entropică propusă Astfel, faza de 188 codare pe un număr variabil de biţi a codurilor Run-Length (RL) ale datelor a fost introdusă din considerente de eficienţă în reprezentare binară, bazată pe o statistică neuniformă a acestor coduri Astfel, s-a observat faptul că apar coduri RL de valori mici cu frecvenţe mari şi coduri RL cu valori ridicate cu frecvenţe foarte scăzute Din acest motiv, se propune o procedură neuniformă de alocare de bit codurilor RL obţinute În acest sens sistemul propus lucrează cu trei nivele de codare, după cum urmează: codurile cu valori mai mici decât 8 sunt reprezentate pe 3 biţi, cele cu valori mai mici decât 32, pe 6 biţi, în timp ce cele cu valori mai mari sunt reprezentate pe 13 biţi Vectorului de indexare al codurilor RL este un vector binar format din vectorii de poziţie ai valorilor RL codaţi pe 6 biţi şi, respectiv, ai valorilor RL codaţi pe 13 biţi Codurile LR ale acestui vector sunt alipite codurilor RL ale datelor (ce se codează LZ împreună), în timp ce vectorul de poziţie al vectorului de indexare al codurilor RL, inclus în câmpurile 4 din structura fişierului de date comprimate, este rezultatul codării, în acelaşi mod, pe un număr variabil de biţi, a codurilor RL ale vectorului de indexare Se propune deci o metodă de codare entropică hibridă, RL cu dublă indexare combinată cu LZ Programul de reconstrucţie are sintaxa de apel: WPdcmp ( , [ ]) unde: WPdcmp - este denumirea programului, fisier in cmp - numele unui fişier cu semnal audio comprimat, în format * cmp, fisier out wav - un parametru opţional, numele unui fişier în format standard * wav în care se memorează secvenţa audio reconstruită În absenţa parametrului opţional (numele fişierului rezultat), rezultatele reconstrucţiei vor fi memorate într-un fişier cu structura standard “wave” ce are aceeaşi denumire cu cea a fişierul * cmp indicat (dar cu extensia * wav) Câteva rezultate experimentale ale utilizării acestor programe, în compresia unei secvenţe audio stereofonice (muzică de pian), de calitate CD (eşantioane prelevate cu frecvenţa de 44100Hz şi codate PCM cu 16 biţi/eşantion), de lungime 3 58 s, se prezintă în cele ce urmează Secvenţa audio conţine un număr total de 159400 de eşantioane, fiind prelucrată, în cadrul primului experiment, pe blocuri de 1024 de eşantioane din care utile sunt doar 1000 (din cauza suprapunerilor parţiale ale blocurilor de eşantioane) În figura 7 13 se prezintă câteva etape ale prelucrării a unui bloc (blocul nr 7) de eşantioane 189 4 x 10Semnalul de intrareCoeficientii descompunerii FWPT 1 0 0 5 -2 0 -0 5-4 -1-6 05001000150000 51 Arborele binar al celei mai bune baze4Coeficientii Wavelet x 10 04 -200 2 -400 0 -600 -2 -800 -4 00 51050010001500 Figura 7 13 a) semnalul prelucrat, b) coeficienţii descompunerilor în pachete de funcţii Wavelet, c) arborele binar asociat celei mai bune baze, d) coeficienţii Wavelet ai descompunerii în baza cea mai bună Rezultate ale codării blocului de eşantioane din figura 7 13 a indică un număr de 91 coeficienţi nyˆ Aceasta indică un raport Nr total de coeficienţi/Nr coeficienţi nenuli = nenuli ai secvenţei [] 1024/91=11 25, şi permite un raport SQNR=20 19 dB, după operaţia de “thresholding” Codarea entropică a condus la o lungime totală de 1691 biţi a câmpurilor 2,3 şi 4, aferente acestui bloc, din fişierul * cmp rezultat Aceasta este echivalentă cu o rată de compresie efectivă de 9 46 (1000*16/1691), în condiţiile în care SQNR de reconstrucţie are valoarea de 20 41 dB O variantă mai rapidă, dar suboptimală, a sistemului de compresie din figura 7 11 este bazată pe o alegere aproximativă, a pragului de comparaţie λ, în funcţie de nivelul maxim al semnalului din blocul curent de eşantioane Am constatat, prin experimentare, faptul că o valoare de ()() 8/nxabsmax=λ (7 13) [] n dB (cu cel puţin 3dB mai bun decât nivelul asigură nivele ale raportului SQNR de ordinul 2520 ÷ raportului SQNR oferit de metodele de codare perceptive) De asemenea, am constatat faptul că, pentru blocurile de eşantioane în care nivelul maxim al semnalului nu depăşeşte 60 dB, o alegere de forma: ()() 2/nxabsmax=λ (7 14) [] n conduce la zgomote de cuantizare imperceptibile, la reconstrucţie În tabelul 7 4 se prezintă, în mod sintetic, câteva rezultate ale utilizării acestei variante a programului, aplicat semnalului audio mai sus menţionat Tabelul 7 4 Rezultate ale codării primelor 30 de blocuri de 1024 de eşantioane ale semnalului audio prelucrat Număr SQNR rata de cmpr rata de cmpr SQNR de Nr total CR efectivă bloc etapa I Huffman date Huffman RL reconstrucţie coef/ Nr (LZ-RL) [dB] [dB] coef Nenuli 1 7 6604 8 1961 10 4891 7 6778 6 3210 5 0745 2 5 7751 11 3227 25 2840 5 7476 13 4737 12 2324 190 3 9 1230 12 3933 32 1886 9 1326 18 6182 15 7480 4 12 2723 12 0559 27 1708 12 3819 16 0000 13 5708 5 23 0788 10 0392 17 9846 23 5919 10 3434 9 3458 6 21 0104 9 2252 14 9899 21 2274 8 6780 7 7407 7 21 3628 9 6094 16 4829 21 6598 9 3091 8 5929 8 23 5469 9 5813 16 2540 23 8806 9 2252 8 3770 9 24 9298 9 1787 15 5446 25 4995 8 5333 8 3990 10 24 5821 9 3999 16 3350 24 7699 9 1429 8 6486 11 24 9555 9 2408 15 8147 25 5578 8 6050 8 4211 12 24 4997 9 3837 15 4130 25 1979 8 7521 8 2136 13 25 6690 9 7408 16 8386 25 8850 9 6604 8 7864 14 25 0408 9 3356 15 7085 25 4843 8 7521 8 2988 15 25 7038 9 2513 15 5005 25 9465 8 7521 8 0160 16 27 7145 9 3945 16 8041 27 9852 9 0619 8 4388 17 24 6291 9 6775 16 6843 25 4840 9 3091 8 9087 18 26 1366 9 7292 16 8386 26 3646 9 6604 9 0395 19 25 5980 9 7004 16 8733 26 5432 9 5701 9 1013 20 27 4217 9 2933 16 0627 27 4847 8 6780 8 6533 21 29 4111 9 1022 15 6785 30 5972 8 4628 8 4926 22 26 9711 9 3999 15 8147 27 6868 8 8276 8 4388 23 28 3367 9 2565 16 3840 28 3947 8 8276 8 6815 24 27 7873 9 2565 15 6485 29 4866 8 5333 8 5424 25 28 2192 9 4378 16 5328 28 9786 8 9043 8 8300 26 27 6886 9 4650 16 2701 27 7320 8 9825 8 6068 27 26 7947 9 4596 16 0943 27 7584 8 9825 8 0686 28 27 3563 9 3303 16 5998 27 3467 8 9043 8 7960 29 27 8201 9 2722 15 6038 28 5825 8 5333 8 3770 30 28 4000 9 3250 16 1897 30 7570 8 6050 8 8057 În tabelul 7 4 au fost trecuţi o serie de indicatori de performanţă ai sistemului cum ar fi: raportul SQNR, în decibeli, după operaţia de “thresholding” (coloana a II-a), rata de compresie teoretică obtenabilă prin codarea Huffman a secvenţei u[n] (coloana a III-a), exclusiv tabela de simboluri, rata de compresie teoretică obtenabilă prin codarea Huffman a secvenţei codurilor RL ale secvenţei u[n] (coloana a IV-a), exclusiv tabela de simboluri, SQNR de reconstrucţie (coloana a V-a), raportul dintre numărul total de coeficienţi şi numărul coeficienţilor nenului ai secvenţei [] nyˆ (coloana a VI-a), precum şi raportul de compresie obţinut prin codarea efectivă folosind codul Lempel-Ziv (un cod dinamic ce nu necesită transmiterea unei tabele de simboluri) aplicat secvenţei codurilor Run-Length ale secvenţei u[n] (coloana a VII-a) Rezultatele experimentului, evaluate pe ansamblul celor 159 de blocuri de eşantioane prelucrate, indică un factor de compresie mediu de 8 24 în condiţiile unei medii a raportului SQNR de reconstrucţie de 23 72 dB Acest rezultat, de codare de semnal audio cu rată de bit variabilă, corespunde, în contextul dat (frecvenţă de eşantionare de 44100 Hz şi codare PCM pe 16 biţi a eşantioanelor), la o rată de bit echivalentă de 85 59 kbps, mai mică decât cele ale codărilor MPEG1- LI şi LII însă mai mare decât cea a codării MPEG1-LIII Distorsiunile de reconstrucţie oferite de această metodă sunt însă mai mici decât cele ale codărilor MPEG, şi nu este de neglijat faptul că aceste rezultate sunt obţinute în condiţiile unei complexităţi mai scăzute a sistemului Experimentul de mai sus a fost repetat folosind aceeaşi funcţie Wavelet DAU-20, dar operând cu blocuri de eşantioane de lungime L=2048, şi calculând FWPT pe un număr maxim de J=5 nivele de rezoluţie În figura 7 14 se prezintă câteva etape ale prelucrării a unui bloc (blocul nr 7) de 2048 de eşantioane 191 4 x 10Semnalul de intrareCoeficientii descompunerii FWPT 1 0 0 5 -2 0 -0 5-4 -1-6 010002000300000 51 Arborele binar al celei mai bune baze4Coeficientii Wavelet x 10 03 -5002 -10001 0 -1500 -1 -2000 -2 00 510100020003000 Figura 7 14 a) semnalul prelucrat, b) coeficienţii descompunerilor în pachete de funcţii Wavelet, c) arborele binar asociat celei mai bune baze, d) coeficienţii Wavelet ai descompunerii în baza cea mai bună Rezultate ale codării blocului de eşantioane din figura 7 14 a indică un număr de 160 coeficienţi nyˆ Aceasta conduce la un raport Nr total de coeficienţi/Nr coeficienţi nenuli nenuli ai secvenţei [] = 1024/91=12 80, şi permite un raport SQNR=23 74 dB, după operaţia de “thresholding” Codarea entropică a condus la o lungime totală de 2665 biţi a câmpurilor 2,3 şi 4, aferente acestui bloc, din fişierul * cmp rezultat Aceasta este echivalentă cu o rată de compresie efectivă de 12 007 (2000*16/2665), în condiţiile în care SQNR de reconstrucţie are valoarea de 24 76 dB Se observă o îmbunătăţire clară a performanţelor sistemului faţă de cazul anterior Aceeaşi tendinţă de îmbunătăţire a performanţelor se observă şi consultând tabelul 7 5 ce prezintă, în mod sintetic, câteva rezultate ale utilizării acestei variante a programului, aplicat semnalului audio mai sus menţionat În tabel au fost trecuţi, spre comparaţie, aceleaşi indicatori de performanţă ai sistemului ca şi în tabelul 7 4 Tabelul 7 5 Rezultate ale codării primelor 30 de blocuri de 2048 de eşantioane ale semnalului audio prelucrat Număr SQNR rata de cmpr rata de cmpr SQNR de Nr total CR efectivă bloc etapa I Huffman date Huffman RL reconstrucţie coef/ Nr (LZ-RL) [dB] [dB] coef Nenuli 1 4 1180 14 1853 66 0645 3 8142 38 6415 29 5476 2 13 8381 14 7074 87 1489 14 2225 55 3514 36 7394 3 19 9300 11 3620 23 1904 20 3382 14 2222 12 1627 4 21 2719 10 3992 20 0049 21 3111 11 4413 11 0919 5 24 1763 10 2464 20 7655 24 1439 11 6364 11 4736 6 23 5926 10 6597 22 3215 23 9560 12 8805 12 1627 7 23 7443 10 7190 22 3825 24 7638 12 8000 12 0075 8 25 4918 10 5397 22 0363 25 8756 12 3373 11 4245 9 25 4137 11 1913 24 5453 25 5530 14 3217 13 0879 10 24 9583 10 9997 24 1830 25 1112 14 0274 12 9607 11 24 7294 11 1570 24 5453 24 9108 13 9320 13 2396 192 12 23 0535 11 3032 23 6421 23 3938 14 0274 12 6833 13 24 5814 11 3384 24 4173 25 1461 14 4225 12 9712 14 23 9329 11 1913 22 8987 24 0138 13 8378 12 0527 15 24 1444 11 3581 24 9566 24 8353 14 6286 13 2615 16 25 4559 11 2066 23 8486 25 5521 14 2222 12 8876 17 24 9784 11 1342 23 7967 25 1049 13 8378 12 8669 18 24 7913 11 3032 24 7680 24 7812 14 7338 13 1094 19 25 0508 10 9629 23 9008 25 9790 13 9320 12 6532 20 20 9566 9 5673 15 6635 20 9230 9 3945 8 8081 21 21 9952 10 4456 22 0660 22 3553 12 5644 11 8827 22 22 0724 10 3336 20 3275 22 2114 11 9070 10 7419 23 20 8826 9 9327 16 5998 20 7197 10 2915 8 8520 24 19 7224 10 3369 17 0489 19 6750 10 6667 9 1455 25 22 0920 10 5771 18 3883 22 1364 11 2527 9 8310 26 20 3916 11 3110 23 7967 20 5353 14 6286 12 3600 27 19 8636 10 9372 20 5442 20 1221 12 1905 11 1073 28 21 6215 10 3336 18 1039 21 7378 10 7789 9 7294 29 21 8337 9 8314 16 8907 22 1075 10 1891 9 2619 30 23 1181 9 9963 17 3467 23 2250 10 4490 9 2086 Rezultatele experimentului, evaluate pe ansamblul celor 79 de blocuri de eşantioane prelucrate, indică un factor de compresie mediu de 11 3286 în condiţiile unei medii a raportului SQNR de reconstrucţie de 22 0549 dB Acest rezultat, de codare de semnal audio cu rată de bit variabilă, corespunde, în contextul dat (frecvenţă de eşantionare de 44100 Hz şi codare PCM pe 16 biţi a eşantioanelor), unei rate de bit echivalentă de 62 2848 kbps, comparabilă cu cea a codării MPEG1- LIII, oferind însă o distorsiune de reconstrucţie mai mică Semnalul reconstruit poate fi încadrat, pe baza calităţii de reproducere (o măsură subiectivă), în categoria “forte bună”, sistemul asigurând o codare “aproape transparentă” Cele mai recente propuneri din acest domeniu al codării audio propun scheme de codare hibride, [Ali 96], [Ham 96], [Ham 97] Astfel, în [Ali 96] se propune o structură de codare ce îmbină modelul psiho-acustic utilizat, similară cu cele utilizate în implementările de sisteme de codare pereceptive deja menţionate (propuse de M Ali în [Ali 95], J F Luo şi B G Sherlock, [Luo 95]), cu deosebirea faptului că în această implementare modelul psiho-acustic va furniza şi informaţiile de “tip de componentă” de semnal (tonală sau netonală) Astfel, se poate face o clasificare (o diferenţiere clară) a acestor componente, iar codările utilizate pot fi specifice fiecărei clase în parte Componentele tonale, fiind semnale cvasi-periodice pot fi comprimate eficient folosind metode bazate pe analiza Fourier (transformările FFT sau DCT) Prin scăderea din semnalul de prelucrat a părţii tonale (reconstruită prin sinteză de semnal) se obţine un semnal rezidual, cu un comportament de zgomot care se poate coda în subbenzi Wavelet Performanţele unui astfel de sistem depind de acurateţea modelului psiho-acustic, de filtrele Wavelet utilizate precum şi de procedura de alocare de bit utilizată M Ali şi A H Tewfik, autorii lucrării [Ali 96], raportează o rată de bit obtenabilă de 1 bit/eşantion, în condiţiile unei codări audio transparente Această rată de bit, în condiţiile unui semnal audio de calitate CD (eşantionat cu frecvenţa de 44100 Hz), este echivalentă cu o rată de bit de 44 100 kbps Această valoare este evident mai redusă decât orice altă valoare minimă indicată de până acum 7 5 Compresie de semnal audio prin descompuneri în baze de funcţii trigonometrice locale Conform rezultatelor din paragraful precedent, sistemele de compresie bazate pe descompunerea semnalului audio în baze ortogonale sau biortogonale de funcţii Wavelet pot să aducă performanţe comparabile cu cele ale unor metode performante cum sunt sistemele MPEG- 193 Audio, la o complexitate sensibil mai scăzută a sistemului Acest lucru se datorează faptului că bazele de funcţii Wavelet permit o analiză adaptivă (locală şi/sau globală) a semnalului prelucrat (nestaţionar prin natură) Aceste analize se adaptează uşor diferitelor tipuri de caracteristici locale sau globale ale semnalului, în sensul că pot fi uşor concepute diverse scheme adaptive de prelucrare a semnalului ce operează în moduri diferite în funcţie de proprietăţile avute de semnalul de intrare Descompunerile Wavelet permit, după cum s-a văzut, obţinerea unor performanţe bune, dacă sistemul de compresie conceput exploatează în mod eficient proprietăţile de regularitate, număr de momente nule precum şi cele de suport compact ale funcţiilor Wavelet Rezultatele raportate de M Ali şi A H Tewfik, [Ali 96], ne indică faptul că în contextul unui semnal audio, semnal nestaţionar, cu o serie de componente tonale (apropiate de undele armonice pure) dar şi netonale (având caracteriticile unui semnal de zgomot), o analiză combinată poate oferi eficienţă maximă în codare Această analiză combinată, după cum am văzut, prevede o reprezentare adaptivă a semnalului prin separarea componentelor armonice şi cvasi-armonice (cele tonale) de celelalte, şi aplicarea unor procedee de codare diferite, adaptate acestor componente, bazată pe analiză Fourier pentru cele tonale şi analiză Wavelet pentru cele netonale De fapt, problema principală a celor două propuneri anterioare ale autorului tezei din paragraful precedent §7 4, (sistemele cu schemele de principiu din figurile 7 7 şi 7 11), constă în faptul că, prin natura sa, o analiză Wavelet nu poate caracteriza în mod eficient o componentă spectrală pură (o componentă armonică) În cele ce urmează vom analiza performanţele unor sisteme de compresie bazate pe descompuneri în baze de funcţii ce permit, de asemenea, efectuarea unei analize adaptive a semnalului prelucrat Această dorinţă de a investiga şi alte tipuri de funcţii, în contextul compresiei de semnal audio, este bazată şi pe concluzia lui Luo şi Sherlock, enunţată în paragraful precedent, conform căreia la o aceeaşi lungime a filtrelor Wavelet utilizate, sistemul Wavelet cel mai regulat s-a dovedit a fi cel mai bun pentru majoritatea cazurilor de semnal audio, concluzie ce este în deplină concordanţă cu concluziile şi propunerile lui M Ali De asemenea, a fost observat faptul că factorul de compresie obţinut, folosind sisteme Wavelet regulate, pentru semnalele audio cu mai multe componente tonale este în general mai redus decât cel obţinut prin codare MPEG-Audio, în condiţii similare de codare şi calitate de reconstrucţie În acest paragraf se propune un sistem de compresie cu o structură şi caracteristici similare celui din figura 7 11 dar care foloseşte descompuneri de semnal în baze de funcţii trigonometrice locale Trebuie observat faptul că aceste baze sunt baze timp-frecvenţă cu o serie de proprietăţi similare bazelor Wavelet dar care pot fi capabile de o reprezentare mai eficientă a componentelor armonice Astfel, aceste baze de funcţii trigonometrice locale pot oferi aceleaşi calităţi în reprezentarea de semnal ca şi multe dintre bazele de funcţii Wavelet abordate: permit o analiză timp-frecven ţă adaptivă, cu rezoluţie temporală şi respectiv frecvenţială variabilă în funcţie de evenimentele temporale sau frecvenţiale ale semnalului prelucrat, grad controlabil de regularitate, construcţia unor funcţii cu un anumit număr de momente nule şi evident există o serie de asemenea funcţii ce sunt cu suport compact Şi aceste funcţii pot forma mulţimi de baze, pot fi generate pachete de asemenea funcţii, care pot fi combinate în baze optimale de reprezentare a semnalului Astfel, şi aceste funcţii permit abordarea cu succes a unor cerinţe cum sunt cele de cea mai bună aproximare a unei diviziuni spectrale (de exemplu aproximarea benzilor critice) sau construcţia celei mai bune baze (adoptând un criteriu de cost) Acest subiect al bazelor atomice de funcţii trigonometrice locale precum şi cel al analizelor folosind pachete de astfel de funcţii a fost tratat, în cadrul prezentei lucrări, în §3 3 194 În continuare, se prezintă o propunere de sistem de compresie bazat pe o descompunere a semnalului audio de prelucrat în baze optimale de funcţii trigonometrice locale Schema de principiu a sistemului se prezintă în figura 7 15 ]n[x cp[n] y[n] ][ˆnyu[n] x x(t) Eşant / Cuantiz / Codare v[n] Selecţie FCPT λ cuantiz bază coodare de bit entropică Figura 7 15 Sistem adaptiv de compresie cu pachete de funcţii cosinusoidale locale Sistemul, cu schema bloc din figura 7 15, are o structură similară cu cea a sistemului de compresie investigat în §7 4 2, cu schema de principiu din figura 7 11 Compresia de semnal are la bază aceleaşi principii: operare pe blocuri de eşantioane parţial suprapuse, evaluarea coeficienţilor dezvoltării semnalului în baza de funcţii cosinusoidale locale cea mai potrivită, cea care asigură un număr minim de coeficienţi nenuli în urma anulării celor cu magnitudine mai mică decât valoarea unui anumit prag λ, ales în mod adaptiv pe baza unei cerinţe de distorsiune minimă impusă, cuantizarea uniformă (sau neuniformă prin compandare după legea µ), codare de bit şi codare entropică Diferenţa dintre cele două sisteme de codare (cel din figura 7 11 şi cel din figura 7 15) constă în faptul că, în timp ce primul folosea dezvoltarea semnalului în pachete de funcţii Wavelet, cel din urmă îl descompune în pachete de funcţii cosinusoidale locale Sistemul de compresie din figura 7 15 a fost implementat sub forma unui program scris sub mediul de programare Matlab Şi acest program are două componente: un modul de codare şi unul de decodare Ambele sunt funcţii Matlab de tipul “cu lansare din linia de comandă” Sintaxa de apel a celei de compresie este: CPcmp ( , [Px /Perr]) unde: CPcmp - este denumirea programului, fisier in wav - numele unui fişier în format standard * wav, Px/Perr - un parametru opţional ce indică raportul minim de semnal pe zgomot dorit Valoarea implicită a sa este Px/Perr=100 (20 dB) Rezultatele compresiei sunt memorate într-un fişier cu acelaşi nume (fisier in) cu extensia * cmp ce are o structură similară celei din figura 7 12 (cu excepţia faptului că lipseşte din primul câmp specificatorul N al funcţiei Wavelet utilizate) Programul de reconstrucţie are sintaxa de apel: CPdcmp ( , [ ]) unde: CPdcmp - este denumirea programului, fisier in cmp - numele unui fişier cu semnal audio comprimat, în format * cmp, fisier out wav - un argument opţional, numele unui fişier în format standard * wav în care se memorează secvenţa audio reconstruită În absenţa argumentului opţional (numele fişierului rezultat), rezultatele reconstrucţiei vor fi memorate într-un fişier cu structura standard “wave” cu aceeaşi denumire cu cea a fişierul * cmp indicat (dar cu extensia * wav) În tabelul 7 6 se prezintă câteva rezultate experimentale ale utilizării acestor programe, în compresia secvenţei audio stereofonice, de calitate CD (eşantioane prelevate cu frecvenţa de 44100Hz şi codate PCM cu 16 biţi/eşantion), şi de lungime 3 58 s, identică cu cea folosită în experimentările din paragraful anterior 195 Tabelul 7 6 Rezultate ale codării primelor 30 de blocuri de 1024 de eşantioane ale semnalului audio prelucrat Număr SQNR SQNR de Nr total CR efectivă bloc etapa I reconstrucţie coef/ Nr (LZ-RL) [dB] [dB] coef Nenuli 1 10 5405 11 0944 38 4615 25 7649 2 11 4116 11 7753 45 4545 26 4463 3 9 8064 9 8235 55 5556 31 5582 4 16 0137 16 1373 50 0000 32 5866 5 20 5486 25 6533 17 5439 13 0506 6 22 8574 23 9503 12 6582 12 1581 7 21 5498 23 0301 14 7059 11 2202 8 20 9095 23 2904 15 8730 13 6054 9 26 3431 26 9082 14 4928 13 1148 10 26 5741 27 7015 16 1290 13 4341 11 22 0889 25 1388 15 1515 12 1396 12 23 0654 25 8661 15 1515 12 5490 13 25 3452 25 9585 17 8571 16 7189 14 24 3712 26 8213 16 3934 13 3556 15 20 8198 25 3855 14 0845 11 4778 16 25 2010 26 6211 16 3934 13 5478 17 25 4195 26 7067 17 8571 14 9393 18 24 5307 24 7013 20 8333 17 6018 19 24 2331 26 0417 20 8333 16 0804 20 25 9748 26 2157 17 5439 15 6250 21 26 8377 27 7174 17 2414 13 9616 22 23 3809 25 5846 14 9254 11 7734 23 24 3134 25 2844 15 3846 11 7994 24 22 9729 23 6151 18 5185 14 4014 25 24 3787 25 7125 16 6667 14 3369 26 24 0955 24 4569 17 8571 12 4611 27 21 8095 25 1363 14 0845 11 6533 28 22 7681 24 9980 13 6986 11 1421 29 21 3169 25 9482 14 2857 13 1904 30 24 9862 25 5231 17 2414 15 3994 În tabelul 7 6 au fost trecuţi indicatori de performanţă ai sistemului cum sunt: raportul SQNR, în decibeli, după operaţia de “thresholding” (coloana a II-a), SQNR de reconstrucţie (coloana a III-a), raportul dintre numărul total de coeficienţi şi numărul coeficienţilor nenului ai secvenţei [] nyˆ (coloana a IV-a), şi raportul de compresie obţinut prin codarea efectivă, folosind codarea Lempel- Ziv a secvenţei codurilor Run-Length ale secvenţei u[n] (coloana a V-a) Aceste rezultate indicate au fost stabilite în condiţii similare celor de obţinere a rezultatelor din tabelul 7 4 , operând pe blocuri de eşantioane de lungime N=1024 şi calculând FCPT pe un număr J=3 nivele Rezultatele experimentului, evaluate pe ansamblul celor 159 de blocuri de eşantioane prelucrate, indică un factor de compresie mediu de 12 906 în condiţiile unei medii a raportului SQNR de reconstrucţie de 23 92 dB Ambele valori indică performanţe ale acestui sistem mai bune decât cele ale sistemului Wavelet (8 24 şi, respectiv, 23 72 dB) Acest rezultat, de codare de semnal audio cu rată de bit variabilă, corespunde, în contextul dat (frecvenţă de eşantionare de 44100 Hz şi codare PCM pe 16 biţi a eşantioanelor), la o rată de bit echivalentă de 54 669 kbps, mai mică decât cele ale codărilor MPEG-Audio şi comparabilă cu cele raportate prin utilizarea unor codări perceptive hibride, [Ali 96] Valoarea distorsiunilor de reconstrucţie oferită de această metodă este însă mai mică decât cea a codărilor hibride, şi nu este de neglijat faptul că rezultatele sunt obţinute în condiţiile unei complexităţi mai scăzute a sistemului 196 Experimentul de mai sus a fost repetat folosind aceleaşi funcţii cosinusoidale locale, dar operând pe blocuri de eşantioane de lungime L=2048, şi calculând transformarea FCPT pe un număr maxim de J=5 nivele Rezultatele experimentului, evaluate pe ansamblul celor 79 de blocuri de eşantioane prelucrate, indică un factor de compresie mediu de 16 504 în condiţiile unei medii a raportului SQNR de reconstrucţie de 23 77 dB Se observă o creştere semnificativă a factorului de compresie (faţă de 12 906 obţinut în cazul anterior) în condiţiile menţinerii nivelului distorsiunii de reconstrucţie (care era de 23 92 dB) Acest rezultat corespunde, în contextul dat (frecvenţă de eşantionare de 44100 Hz şi codare PCM pe 16 biţi a eşantioanelor), unei rate de bit echivalentă de 42 753 kbps, mai mică decât cele ale codărilor MPEG-Audio, comparabilă, şi chiar mai bună decât cele raportate prin utilizarea unor codări perceptive hibride (1 bit pe eşantion) Semnalul reconstruit poate fi încadrat şi în acest caz, pe baza calităţii de reproducere, în categoria “forte bună”, sistemul asigurând o codare “aproape transparentă” Concluzii Subiectul abordat în lucrare este cel al compresiei de semnal bazată pe utilizarea unor reprezentări timp-frecvenţă Scopul urmărit este cel de realizare a unei analize comparative a performanţelor oferite de o serie de sisteme adaptive de compresie cu pierdere, ce încorporează în structura lor dezvoltări ale semnalului de prelucrat în diferitele tipuri de baze timp-frecvenţă Multe dintre sistemele de compresie prezentate sunt propuneri originale ale autorului Problematica este abordată în ipoteza unor semnale de intrare cu diferite caracteristici (de bandă limitată, cu variaţie ∞N polinomială sau polinomială pe porţiuni, de clasă C sau C, cu N finit, pe toată axa reală sau pe porţiuni, semnale aleatoare staţionare - cu diverse caracteristici statistice, sau nestaţionare dar cu caracteristici staţionare pe porţiuni etc ) În vederea adaptării la aceste caracteristici de intrare, sistemele de compresie propuse recurg la utilizarea unor metode diferite de transformare a spaţiului de reprezentare a informaţiei sursă Se caută descompuneri optimale, baze de funcţii “bune”, ce oferă cele mai bune sau aproape cele mai bune performanţe de analiză în condiţiile date Astfel, se arată că printre candidate se numără bazele de funcţii cu localizare bună atât în domeniul timp cât şi în cel de frecvenţă Din acest motiv, un loc privilegiat în această expunere îl ocupă bazele de funcţii timp-frecvenţă, cum sunt bazele de funcţiile trigonometrice locale, bazele de funcţii “Wavelet”, ortogonale sau biortogonale precum şi pachetele de funcţii trigonometrice locale şi, respectiv, de funcţii “Wavelet” Se pun în evidenţă legăturile inerente ce există între proprietăţile funcţiilor bazei şi cele ale semnalului de analizat Se indică câteva modalităţi de căutare şi respectiv de construcţie a unor asemenea baze Sunt studiate şi evaluate metode adaptive de cuantizare a coeficienţilor transformării Lucrarea are 215 pagini şi este structurată pe şapte capitole, concluzii şi bibliografie În primul capitol este introdusă tematica compresiilor de semnal, sunt trecute în revistă principalele componente ale unor sisteme clasice de compresie Sunt definite o serie de măsuri posibile de evaluare a calităţii semnalului reconstruit Se indică o serie de clasificări posibile ale acestor sisteme bazate pe diverse criterii (criteriul erorii de reconstrucţie, natura mesajelor sursă şi a codurilor asociate, în funcţie de tehnicile de codare folosite etc ) Sunt indicate performanţele limită teoretică obtenabile de către sistemele de compresie atât a celor din clasa sistemelor de compresie fără pierdere cât şi a celor din clasa sistemelor de compresie cu pierdere Astfel, cele fără pierdere pot oferi rapoarte de compresie mai mici, în limita debitului entropic al sursei Aceste sisteme realizează practic o reducere a redundanţei existente în reprezentarea primară a semnalului sursă Prin definiţie, sistemele de compresie cu pierdere nu pot asigura o reconstrucţie exactă a semnalului sursă, însă oferă rapoarte de compresie mai mari Această performanţă se datorează însă gradului mărit de flexibilitate permisă în reconstrucţia semnalului Cu cât se admite un nivel mai mare al distorsiunii de reconstrucţie cu atât se pot obţine rapoarte de compresie mai mari Limitele de performanţă din acest punct de vedere sunt oferite de funcţiile rată-distorsiune şi distorsiune-rată, introduse în ultimul paragraf al acestui prim capitol Ele pun în evidenţă, pe de o parte, imposibilitatea reducerii ratei medii de biţi sub o anumită limită fără a depăşi un anumit nivel al distorsiunii de reconstrucţie, iar pe de altă parte imposibilitatea obţinerii unor distorsiuni de reconstrucţie oricât de mici dacă se fixează o rată de bit mai mică decât debitul entropic al sursei Importanţa acestor funcţii rezidă în faptul că ele indică anumite limite teoretice ale performanţelor obtenabile, ale căror cunoaştere se poate dovedi utilă în construcţia efectivă a unor sisteme Ele oferă, de asemenea, măsuri ce permit realizarea unor comparaţii efective între sisteme de compresie, cu structuri şi principii de funcţionare mult diferite Tot în acest capitol se arată faptul că dependenţa performanţelor diferitelor sisteme de compresie de însuşi caracteristicile semnalului de prelucrat face inutilă căutarea unor sisteme de compresie optimale (cele mai bune) în cazurile în care semnalul sursă este unul nestaţionar Pentru aceste cazuri se recomandă fie utilizarea unor sisteme de compresie universale cu performanţe suboptimale fie a unor sisteme adaptive ce învaţă “din mers” caracteristicile de semnal tinzând astfel către performanţe optimale Următoarele capitole ale lucrării sunt dedicate prezentării unor aspecte teoretice şi practice ale realizării unor sisteme de compresie adaptive, bazate pe transformarea spaţiului de reprezentare a semnalului sursă În cel de al doilea capitol se prezintă o serie de rezultate teoretice clasice privind performanţele obtenabile ale unor tehnici de cuantizare diferite Sunt trecute în revistă procedeele de cuantizare scalară uniformă şi neuniformă, procedee de cuantizare vectorială, indicându-se performanţele limită obtenabile (cuantizoare optimale) Se introduc, de asemenea, algoritmi eficienţi de construcţie a unor cuantizoare scalare sau vectoriale optimale, în condiţiile în care sunt cunoscute statisticile procesului de intrare (algoritmul Lloyd-Max pentru cazul scalar şi, respectiv, algoritmul LBG pentru cazul vectorial) Această optimalitate poate fi stabilită însă doar pentru cazul unor semnale sursă staţionare Pentru cele nestaţionare se recomandă cuantizarea robustă Cel de al treilea capitol este dedicat găsirii unor reprezentări alternative eficiente ale procesului sursă Este vorba despre studiul unei serii întregi de transformări ce, aplicate semnalului de intrare, duc la reprezentări ce se dovedesc a fi utile din punct de vedere al compresiei acestuia Din acest motiv aceste proceduri de transformare reprezintă faze de preprocesare a semnalului, înainte de compresia sa efectivă Sunt studiate calităţile unor baze de spaţii de semnale, construite din funcţii cu proprietăţi bune de regularitate, de moment, de localizare în planul timp frecvenţă etc Sunt avute în vedere reprezentările bazate pe funcţii de tip Wavelet diferite (ortogonale, semiortogonale, biortogonale, cu suport compact, cu regularităţi diferite) precum şi reprezentări derivate, cum sunt cele de descompunere în baze de pachete de funcţii Wavelet Se indică principalele motive pentru care aceste transformări se pot dovedi utile în aplicaţii de compresie Se prezintă o serie de modalităţi efective de utilizare eficientă a lor, prin implementări de algoritmi rapizi de calcul ai coeficienţilor descompunerii Sunt abordate, de asemenea, şi alte tipuri de reprezentări timp-frecvenţă cum sunt cele oferite de descompunerile în baze de funcţii trigonometrice locale (unde cosinusoidale şi/sau sinusoidale locale), precum şi cele de pachete de funcţii trigonometrice locale Următorul capitol patru, dedicat compresiei de semnal prin transformări ortogonale, abordează cazul compresiei semnalelor în timp discret Sunt analizate performanţele unor transformări clasice, cum sunt Transformarea Fourier Discretă (TFD), DCT sau DST în comparaţie cu cele ale unor transformări mai recente cum sunt cele bazate pe funcţii Wavelet, funcţii trigonometrice locale, pachete de funcţii Wavelet şi pachete de funcţii trigonometrice locale Sunt indicate proceduri rapide de calcul, algoritmi numerici eficienţi, cum sunt FFT, DCT, DST, FWT (Transformarea Wavelet Rapidă, Fast Wavelet Transform), FWPT (Fast Wavelet Packet Transform), DLCT (Discrete Local Cosine Transform) Aceste performanţe sunt “evaluate” în contextul efectiv al unor sisteme de compresie Sunt evidenţiate o serie de beneficii obtenabile, fiind indicate modalităţile efective în care anumite calităţi ale transformării vizate “ajută” în dimensionarea propriu-zisă atât a cuantizoarelor cât şi blocului de codare de bit În acest sens se indică, în ultimul paragraf al acestui capitol, o procedură de alocare de bit optimală utilizabilă în construcţia sistemelor de compresie bazate pe transformări ortogonale Cel de al cincilea capitol are ca subiect sistemele de codare în subbenzi frecvenţiale Sunt prezentate proprietăţile unor bănci de filtre cu reconstrucţie perfectă într-un context de paralelism cu teoria Wavelet Sunt indicate proceduri efective de construcţie a unor bănci de filtre ce corespund unor descompuneri Wavelet în baze de funcţii Wavelet cu anumite proprietăţi impuse (de suport compact, regularitate, număr de momente nule etc ) Sunt abordate structuri de bănci de filtre cu căi multiple uniforme şi respectiv neuniforme Se indică, de asemenea, o procedură de alocare de bit optimală utilizabilă în construcţia sistemelor de compresie incluzând structuri de bănci de filtre cu reconstrucţie exactă precum şi cuantizoare dimensionate în mod adaptiv în funcţie de caracteristicilor semnalelor din subbenzile frecvenţiale Cel de al şaselea capitol, rezervat verificărilor şi propunerilor practice ale autorului abordează o serie de sisteme de compresie universale şi adaptive, utilizabile pentru compresia unor tipuri diferite de semnale Se au în vedere sisteme de compresie de semnale monodimensionale Sunt indicate implementări efective de sisteme de compresie, bazate pe funcţii Wavelet, investigate cu ajutorul unor tipuri diferite de semnale test (de formă sinusoidală, dreptunghiulară şi de tip “Chirp”) Sunt indicate câteva soluţii practice pentru rezolvarea unor probleme tehnice cum sunt cele legate de efectele de margine datorate prelucrărilor pe blocuri de eşantioane de lungimi finite Aceste propuneri au în vedere procedee ca cea de prelungire prin periodicitate, de oglindire a valorilor de la margine, de prelungire prin extrapolare polinomială precum şi cel de prelucrare pe blocuri de date parţial suprapuse Se prezintă proceduri adaptive de compresie prin metode Wavelet a unor semnale de o anumită regularitate Se indică o soluţie originală de sistem adaptiv care este capabil de a efectua o compresie bazată pe o segmentare adaptivă urmată de găsirea bazei de funcţii Wavelet optimale pentru reprezentarea fiecărui segment În acest sens este făcută şi o demonstraţie originală a autorului ce vizează optimalitatea unor funcţii Wavelet cu suport compact în contextul prelucrării pe blocuri finite de eşantioane ale unor semnale cu o anumită regularitate (cu variaţie polinomială) pe porţiuni În ultimul capitol, cel de al şaptelea, sunt prezentate, structuri de sisteme de compresie de semnal audio folosind funcţii Wavelet ortogonale Experimentul este repetat apoi în contextul unor descompuneri în pachete de funcţii Wavelet, aplicând proceduri adaptive de căutare a celei mai bune baze Sunt indicate şi soluţii în care acest proces adaptiv de selecţie a celei mai bune baze este ghidat de proprietăţile psiho-acustice ale sistemului auditoriu uman (soluţii apropiate de sistemul MPEG-Audio) Experimente de compresie a unor semnale test precum şi semnale audio sunt efectuate şi folosind descompuneri în baze de funcţii trigonometrice locale precum şi în baze de pachete de funcţii trigonometrice locale Sunt verificate şi în acest caz eficacitatea tehnicilor de corecţie utilizate în cazul aplicării funcţiilor Wavelet în vederea rezolvării unor probleme practice de sistem Rezultatele sunt evaluate prin prisma performanţelor sistemelor obţinute Sunt avute în vedere măsuri de performanţă cum sunt raportul de compresie, distorsiunea de reconstrucţie, viteza de codare şi/sau de decodare, rata de bit obţinută, complexitatea sistemului Contribuţii remarcabile ale autorului: - propunerea de investigare a unor clase largi de reprezentări ale semnalului de prelucrat, prin descompunere în diferite baze de funcţii (diferitele tipuri de baze timp-frecvenţă), metode ce realizează concentrarea unei cantităţi de informaţie cât mai mare pe un număr de coeficienţi ai descompunerii cât mai redus astfel încât prin reţinerea doar a acestor coeficienţi să se obţină un factor de compresie mare fără a degrada în mod semnificativ calitatea semnalului reconstruit; - studiul şi evaluarea performanţelor, prin prisma raportului SQNR, a unor metode diferite de cuantizare adaptivă; - studiul performanţelor unor reprezentări timp-frecvenţă liniare (baze de funcţii trigonometrice locale, pachete de funcţii trigonometrice locale, baze funcţii Wavelet, pachete de funcţii Wavelet), stabilirea unor legături esenţiale dintre diferitele proprietăţi (de localizare, număr de momente nule, de regularitate etc ) ale funcţiilor acestor baze de descompunere şi cele corespunzătoare ale semnalului de analizat; - punerea în evidenţă a echivalenţei algoritmilor de transformare Wavelet ortogonală rapidă directă şi inversă cu unele scheme de filtrare în subbenzi de tip PR bazate pe filtre QMF, propunând o clasificare a acestor bănci de filtre bazată pe anumite proprietăţi ale funcţiilor Wavelet implicate Astfel, este indicată o parametrizare posibilă a spaţiului băncilor de filtre cu reconstrucţie perfectă pe două căi construite cu filtre de tip FIR cu lungime finită 2M, ce corespund unor sisteme Wavelet, folosind un număr de M-1 variabile unghiulare independente; - indicarea modului de construcţie a unor baze de funcţii Wavelet precum şi de funcţii trigonometrice locale cu anumite proprietăţi impuse; - propunerea unor criterii de selecţie pentru alegerea unor baze de funcţii optimale, din punctul de vedere al compresiei, pornind de la o descompunere a semnalului de analizat în pachete de funcţii Wavelet şi respectiv în pachete de funcţii trigonometrice locale; - propunerea unor sisteme de compresie prin transformări ortogonale respectiv, sisteme bazate pe codarea în subbenzi frecvenţiale a semnalului, optimale, a căror calitate de optimalitate este dată de dimensionarea optimală a blocurilor componente; - propunerea utilizării criteriului erorii medii pătratice ca şi măsură obiectivă de evaluare a aproximării de reconstrucţie obţinute în cazul diferitelor implementări; - implementarea unor sisteme adaptive de compresie eficiente bazate pe descompuneri în baze de funcţii Wavelet ortogonale şi biortogonale, fiind abordate şi o serie de probleme tehnice cum ar fi cele de margine, generate de prelucrarea pe blocuri de eşantioane de lungimi finite ale semnalului; - enunţarea şi demonstrarea propoziţiei 6 1 ce vizează eficientizarea procesului de compresie adaptivă a unor semnale cu un anumit grad de regularitate, - implementarea unor sisteme adaptive de compresie Wavelet a unor semnale cu un anumit grad de regularitate ce efectuează şi o segmentarea adaptivă prealabilă în vederea asigurării optimalităţii sistemului; - propunerea unor noi metode alternative de codare transparentă de semnal audio ce folosesc descompuneri ale semnalului în diferite tipuri de baze de funcţii timp-frecven ţă; - implementarea şi investigarea performanţelor unor sisteme de compresie de semnal audio de înaltă calitate, bazate pe dezvoltarea semnalului în baze de funcţii Wavelet, pachete de funcţii Wavelet şi pachete de funcţii trigonometrice locale Caracteristicile principale ale implementărilor practice realizate de autor sunt: a) Sistemul eficient de compresie Wavelet adaptivă ale unor semnale monodimensionale implementat, prezentat în §6 2 1, are caracteristicile: - este scris în limbajul de programare C, - prelucrează pe blocuri de L=512 eşantioane, - permite specificarea explicită (din linie de comandă) sau selectarea automată adaptivă (în caz contrar) a funcţiei Wavelet dintr-o mulţime de nouă funcţii Wavelet ale lui Daubechies, - permite specificarea opţională (din linie de comandă) a raportului SQNR minim (implicit 20 dB) Au fost prezentate propuneri ale autorului de îmbunătăţire a performanţelor sistemului de mai sus prin atenuarea sau chiar eliminarea totală a efectului de margine Aceasta se poate realiza prin: - completarea cu zerouri sau cu valorile oglindite ale eşantioanelor marginale, - prelungirea prin periodicitate a secvenţei de eşantioane (de lungime finită), - considerarea unor tipuri diferite de funţii fereastră, de netezire a marginilor, - prelucrarea pe blocuri de eşantioane parţial suprapuse, - combinarea a mai multor proceduri din cele mai sus menţionate În acest sens autorul a evaluat lungimea minimă a suprapunerilor necesare eliminării complete a efectelor de margine în contextul utilizării unor funcţii Wavelet de suport compact şi, dacă se cunoaşte numărul maxim de iteraţii în aplicarea algoritmului FWT Evaluarea făcută a fost testată folosind un program de compresie Wavelet, realizat de autor, ce implementează acest mod de lucru pe blocuri de eşantioane parţial suprapuse, măsura suprapunerilor fiind stabilită pe baza considerentelor mai sus amintite De exemplu, în cazul L=1024, lungimea unui bloc de eşantioane, J=3 nivele ale descompunerii şi lucrând cu funcţia Wavelet DAU-5, 2N=10 (lungimea filtrelor), rezultă necesitatea unei suprapuneri parţiale procentuale de 63/1024=6 15% b) Caracteristicile principale ale sistemului de compresie Wavelet adaptivă a unor semnale regulate, prezentat în §6 2 2, sunt: - este elaborat în limbajul de programare C, - semnalul de intrare este prelucrat pe blocuri de eşantioane de lungime variabilă, lungimi ce reprezintă subdiviziuni ale unei lungimi maxime de L=2048, - realizează o estimare a gradului polinomului cel mai apropiat de semnalul sursă din blocul curent, prin aplicarea unui algoritm de interpolare polinomială Criteriul de eroare folosit este cel al erorii absolute Gradul polinomului ce este verificat este de maximum 9, - realizează o segmentare adaptivă a semnalului de prelucrat în segmente de o anumită regularitate prin divizarea în două a fiecărui interval care nu a putut fi clasificat şi prin reiterarea procedurii de verificare a regularităţii Procedura este oprită dacă eroarea absolută curentă scade sub un anumit prag (5% din valoarea eşantionului de magnitudine maximă din blocul curent) sau se ajunge la o fragmentare excesivă a blocului (lungimea blocului curent ar scădea sub valoarea L=64), - alege funcţia Wavelet de lucru în mod adaptiv dintr-o mulţime de nouă funcţii Wavelet ale lui Daubechies, în conformitate cu propoziţia 6 1 demonstrată de către autor, - permite specificarea opţională (din linie de comandă) a raportului SQNR minim (implicit 20 dB), - permite specificarea opţională (din linie de comandă) a erorii procentuale maximă admisă în procedura de segmentare şi verificare a regularităţii (implicit 5%) c) Sistem de compresie Wavelet adaptivă a unor semnale audio de înaltă calitate, prezentat în §7 4 1, are următoarele caracteristicile principale: - este elaborat în limbajul de programare C, - semnalul de intrare este prelucrat pe blocuri de L=4096 de eşantioane, - permite specificarea explicită (din linie de comandă) sau selectarea adaptivă (în caz contrar) a funcţiei Wavelet dintr-o mulţime de nouă funcţii Wavelet ale lui Daubechies (DAU-2, …, DAU-10), - realizează o compandare (respectiv expandare) după o lege logaritmică a dinamicii semnalului audio de prelucrat înaintea transformării propriu-zise (respectiv reconstrucţiei finale a semnalului audio), - permite specificarea opţională (din linie de comandă) a raportului SQNR minim (implicit 20 dB), iar sistemul se va adapta în mod automat la această valoare, realizând astfel o codare audio cu rată de bit variabilă, - implementează o versiune modificată de codare Run-Lenght (RL), o procedură de tip poziţie-valoare ce implică construirea unui vector de indexare a valorilor nenule din secvenţa de date Pentru obţinerea unei eficienţe mai mari procedura este reiterată (aplicată şi vectorului de indexare date) d) Sistem de compresie adaptivă prin dezvoltarea în pachete de funcţii Wavelet a unor semnale audio de înaltă calitate Caracteristicile principale ale acestui sistem, prezentat în §7 4 2, sunt: - este implementat sub forma unor funcţii rulabile sub mediul Matlab, - citeşte datele de intrare dintr-un fişier în format standard “wave” ce conţine semnal audio codat PCM pe 8 sau pe 16 biţi, - permite specificarea explicită (din linie de comandă) a funcţiei Wavelet utilizate, din mulţimea funcţiilor Wavelet ale lui Daubechies DAU-2, …, DAU-20 (implicit DAU-20), - permite specificarea opţională (din linie de comandă) a raportului SQNR minim (implicit 20 dB), iar sistemul se va adapta în mod automat la această valoare, realizând astfel o codare audio cu rată de bit variabilă, - lucrează pe blocuri de eşantioane parţial suprapuse; lungimea unui bloc este de L=1024 cu o suprapunere de 24 de eşantioane, - descompunerea în pachete de funcţii Wavelet este reiterată pe un număr de J=3 nivele, - utilizează funcţia cost “minimizarea numărului de coeficienţi Wavelet cu modulul mai mare decât un anumit prag impus”, - foloseşte cuantizoare uniforme cu 256 de nivele ce permite o precodare pe 8 biţi a fiecărui eşantion, - implementează o procedură de codare entropică bazată pe codare Run-Length urmată de o codare Lempel-Ziv a codurilor RL (o soluţie originală) Variante ale acestei implementări: - o versiune ce descompune semnalul pe un număr de J=5 nivele, - versiuni ce lucrează pe blocuri de eşantioane parţial suprapuse, cu lungimea unui bloc de L=2048, cu o suprapunere de 48 de eşantioane şi cu o descompunere de semnal pe un număr de J=3 sau J=5 nivele succesive e) Sistem de compresie adaptivă prin dezvoltarea în pachete de funcţii trigonometrice locale a unor semnale audio de înaltă calitate Caracteristicile principale ale acestui sistem, prezentat în §7 5, sunt: - este implementat sub forma unor funcţii rulabile sub mediul Matlab, - citeşte datele de intrare dintr-un fişier în format standard “wave” ce conţine semnal audio codat PCM pe 8 sau pe 16 biţi, - permite specificarea opţională (din linie de comandă) a raportului SQNR minim (implicit 20 dB), iar sistemul se va adapta în mod automat la această valoare, realizând astfel o codare audio cu rată de bit variabilă, - lucrează pe blocuri de eşantioane parţial suprapuse, lungimea unui bloc fiind de L=1024 cu o suprapunere de 24 de eşantioane, - descompunerea în pachete de funcţii trigonometrice locale este reiterată pe un număr de J=3 nivele, - utilizează funcţia cost “minimizarea numărului de coeficienţi cu modulul mai mare decât un anumit prag impus”, - implementează o procedură de codare entropică bazată pe codare Run-Length urmată de o codare Lempel-Ziv a codurilor RL Variante ale acestei implementări: - o versiune ce descompune semnalul pe un număr de J=5 nivele, - versiuni ce operează pe blocuri de eşantioane parţial suprapuse, cu lungimea unui bloc de L=2048, cu o suprapunere de 48 de eşantioane şi cu o descompunere de semnal pe un număr de J=3 sau J=5 nivele succesive 